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以 人 工 智 能 为 代表 的 新 技术 正在 给 全 人 们 的 生产 和 生活 方式 带 来 革命 性 
的 变化 。 en: ?能 技术 试图 了 解 智能 的 本 质 ， 并 产生 一 种 新 的 与 人 类 智能 
相似 的 方式 做 出 反应 的 智能 机 器 。 让 计算 机 理解 现实 世界 中 诸如 图 像 、 语 
音 和 语言 等 数据 所 蕴含 的 高 层次 抽象 信息 ， 并 加 以 利用 ， 是 该 领域 最 大 的 
ee 诸多 理论 和 实践 成 果 表明 ， 以 深度 神经 网 络 为 代表 的 “深度 

结构 ”是 解决 该 问 题 的 最 重要 工具 之 一 。 

本 书 详细 论述 了 采用 深度 结构 的 动机 、 原 理 和 理论 依据 ， 讨 论 了 训练 
深度 神经 网 络 的 难点 ， 继 而 详尽 地 介绍 了 自动 编码 器 、 受 限 玻 尔 兹 曼 机 以 
及 深度 置信 网 络 的 概念 和 理论 ， 并 进行 了 理论 分 析 。 本 书 是 深入 理解 深度 
学 习 的 动机 和 原理 的 经 典 之 作 。 

本 书 可 作为 高 等 院 校 相关 专业 本 科 生 和 研究 生 的 教学 辅助 读物 ， 对 于 
人 工 智能 相关 人 员 ， 科 学 界 和 业界 关注 机 咒 学 习 特 别 是 希望 深入 理解 深度 
学 习 理论 基础 的 研究 者 和 从 业者 ， 本 书 值得 仔细 阅读 。 
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深度 学 习 是 近年 在 学 术 界 和 产业 界 都 获得 极 大 重视 的 机 器 学 习 技 术 。 它 在 图 
像 、 语 音 等 方面 取得 的 巨大 进展 使 得 人 们 对 于 它 的 实际 应 用 充满 了 兴趣 。 而 这 些 
实际 应 用 算法 大 都 是 基于 2006 年 受 限 玻 尔 兹 曼 机 以 及 深度 置信 网 络 的 理论 突破 
而 产生 的 。 深 入 理解 深度 结构 提出 的 动机 和 原理 对 于 学 习 和 发 展 深度 学 习 算 法 具 
有 重要 的 意义 。 目 前 出 版 的 大 多 数 深度 学 习 书 籍 均 以 算法 应 用 为 主 ， 本 书 则 侧重 
于 解释 算法 背后 的 动机 ， 并 详细 分 析 深 度 结构 的 理论 基础 ， 是 一 本 不 可 多 得 的 深 
入 浅 出 的 理论 小 册子 。 

本 书 作 者 Yoshua Bengio 是 国际 著名 的 深度 学 习 领 域 开 拓 者 ， 本 书 汇集 了 他 

对 深度 结构 的 比较 系统 的 理论 思考 和 对 深度 置信 网 络 这 一 核心 理论 的 详细 分 析 。 
全 书 分 为 10 章 ， 以 深度 结构 的 引入 动机 、 引 入 方法 以 及 经 典 结构 的 理论 分 析 为 
主线 ， 详 细 介绍 了 受 限 玻 尔 效 曼 机 、 自 编码 器 、 深 度 置 信 网 络 以 及 一 系列 算法 变 
体 的 理论 及 其 算法 分 析 。 本 书 可 作为 高 等 院 校 相关 专业 本 科 生 和 研究 生 的 教学 畏 
助 读物 ， 对 于 人 工 智能 相关 人 员 ， 科 学 界 和 业界 关注 机 器 学 习 特 别 是 希望 深入 理 
解 深 度 学 习 理论 基础 的 研究 者 和 从 业者 ， 本 书 值得 仔细 阅读 。 
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在 超过 半 个 世纪 的 时 间 里 ,使 用 计算 机 为 我 们 的 世界 建 模 ， 展 示 我 们 所 说 的 
“智能 ” ， 一 直 是 研究 的 重点 。 显 然 ， 为 了 实现 这 一 点 ， 大 量 的 信息 应 该 以 某 种 
方式 存储 在 计算 机 中 。 这 些 信息 的 存储 或 以 显 式 方式 或 以 隐 式 方式 进行 。 如 果 要 
完全 人 工地 将 所 有 信息 处 理 为 机 器 可 以 利用 的 形式 ， 以 便 解决 问题 并 推广 到 新 的 
情境 中 ， 其 工作 量 是 无 法 想象 的 。 因 此 ， 许 多 学 者 已 转 而 使 用 学 习 算 法 来 捕捉 这 
些 信息 的 大 部 分 。 虽 然 人 们 在 理解 和 改进 学 习 算 法 方面 有 了 很 大 的 进展 , 但 是 人 
工 智能 仍 面 临 着 挑战 。 我 们 拥有 能 让 机 器 理解 场景 并 用 自然 语言 描述 这 个 场景 的 
算法 吗 ? 除了 在 极其 受 限 的 情况 下 ， 的 确 没 有 这 样 的 算法 。 我 们 有 能 推导 出 足够 
的 语义 概念 并 且 能 用 这 些 概念 和 大 多 数 人 进行 交流 的 算法 吗 ? 答案 是 没有 。 以 定 
义 得 最 好 的 人 工 智能 任务 之 一 的 “图 像 理 解 ” 为 例 ,我们 还 没有 找到 一 个 学 习 
算法 能 发 现 必要 的 视觉 和 语义 概念 ， 来 解释 网 上 的 大 规模 图 片 。 在 其 他 人 工 智 
领域 也 有 类 似 的 情况 。 

考虑 一 个 例子 : 解释 一 个 如 图 1. 1 所 示 的 输入 图 片 。 当 人 们 尝试 解决 特定 的 
AI 任务 (比如 机 器 视觉 或 者 自然 语言 处 理 ) 时 ， 通 常会 考虑 直观 地 将 问题 拆 解 
成 多 个 子 问 题 或 是 多 个 层级 的 表示 ， 例 如 物体 部 件 以 及 坐标 模型 0%,13”,19] ， 它 
们 可 以 在 不 同 的 物体 实例 中 被 重用 。 目 前 最 先进 的 计算 机 视觉 模型 就 构建 了 多 层 
模型 ， 将 像素 点 作为 原始 输入 ， 最 后 用 线性 函数 或 是 核 函 数 分 类 L34.45] 。 其 中 
的 中 间 模 块 混合 了 工程 化 的 变换 和 学 习 ， 例 如 可 以 先 提取 那些 对 小 的 几何 波动 不 
变 的 低层 级 特征 (如 用 Garbor 滤波 器 做 边缘 检测 ) ， 青 逐渐 对 它们 做 转换 ( 如 使 
它们 在 参照 物 改 变 或 反 转 时 保持 不 变 ， 有 时 候 使 用 池 化 和 子 采 样 ) ， 然 后 检测 出 
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最 常 出 现 的 模式 。 如 前 所 述 ， 为 了 从 图 片 中 获取 有 用 信息 ， 目 前 最 常用 且 合 理 的 
方案 就 是 从 原始 的 像素 点 出 发 ， 逐 渐 转 换 成 更 抽象 的 表征 ， 例 如 从 出 现 边 缘 的 地 
方 开始 ， 到 更 复杂 但 仅 出 现在 局 部 的 形状 ， 再 到 侦 测 与 子 物 体 和 图 像 的 部 件 相关 





的 抽象 类 别 ， 最 后 将 这 些 信息 整合 ， 从 而 获取 足够 的 信息 来 回答 关于 图 像 理 解 的 


问题 。 


更 高 层级 的 表示 : 


略 高 层级 的 表示 


原始 输入 向 量 表示 


X Gee X3 Xn 
2 

















图 1.1 我 们 想 要 把 原始 的 图 像 输 入 转换 成 更 高 层级 的 表示 。 这 些 表 示 是 原始 输入 的 函数 ， 


并 且 越 来 越 抽象 。 例 如 边缘 、 局 部 形状 、 物 体 部 件 等 。 虽然 语言 概念 可 以 帮助 我 们 猜测 这 些 更 














高 层级 的 隐 式 的 表示 内 容 ， 实 际 上 我 们 并 不 能 提前 知道 所 有 层级 的 提 
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昌 象 概念 所 确切 表示 的 东西 





需要 注意 的 是 ， 假 定 能 够 做 出 复杂 行为 〈 或 许可 以 被 称 作 “智能 ” ) 的 计算 
机 需要 学 习 一 个 高 可 变 函数 ， 即 这 个 函数 关于 原始 输入 是 高 度 非 线 性 的 ， 并 且 在 
不 同 目标 领域 里 表现 出 非常 大 的 波动 和 起 伏 。 将 学 习 系统 的 原始 输入 看 作 由 多 个 
可 观测 的 变量 组 成 的 一 种 高 维 实体 ， 这 个 实体 的 组 成 变量 之 间 具 有 未 知 且 错 综 复 





杂 的 关联 关系 。 举 个 例子 来 说 ， 运 用 实物 和 光照 的 三 维 几 何 知 识 ， 可 以 把 物理 和 
几何 上 的 微小 改变 〈 如 位 置 、 方 向 以 及 物体 的 光照 ) 与 图 片上 像素 点 的 强度 变 
化 联系 起 来 。 将 这 些 导 致 变化 的 因素 叫 作 波动 影响 因子 ， 因 为 它们 是 数据 的 不 同 
解释 视角 ， 它 们 各 自分 别 变 化 并 且 往往 在 统计 上 是 独立 的 。 在 这 种 情况 下 ， 显 式 
的 物理 因素 的 知识 可 以 让 我 们 获取 一 个 整体 的 数学 表达 ， 可 以 用 于 描述 因素 之 间 
的 统计 依赖 ， 也 可 以 让 我 们 对 与 相同 三 维 物体 相关 的 图 像 (作为 高 维 像素 强度 
空间 中 的 点 ) 的 形状 有 个 粗略 判断 。 如 果 机 咒 能 捕捉 到 影响 数据 统计 波动 变化 
的 那些 因素 ， 以 及 它们 产生 观察 数据 的 机 制 ， 那 么 就 可 以 认为 机 器 理解 了 真实 世 
界 中 由 这 些 波 动 影响 因子 覆盖 的 方面 。 不 幸 的 是 ， 一 般 情 况 下 ， 对 于 隐 含 在 自然 
图 片 里 的 大 部 分 变化 因素 ， 我 们 并 不 能 做 解析 性 的 理解 。 我 们 没有 足够 的 先 验 知 
识 来 解释 观测 到 的 图 像 变化 。 正 如 图 1.1 所 示 ， 即 使 对 于 显而易见 的 类 别 也 没有 
办 法 。 一 个 像 “ 人 ”这 样 的 抽象 类 别 其 实 对 应 着 大 量 可 能 的 图 片 ， 它 们 在 像素 
点 强度 的 欧式 距离 上 可 能 截然 不 同 。 这 类 图 片 在 像素 空间 中 的 存在 非常 复杂 ， 其 
至 都 不 一 定 在 互相 连接 的 区 域 之 中 。 在 图 片 空 间 里 , “人 ”这 个 类 别 可 以 看 作 一 
个 高 层级 抽象 概念 。 在 这 里 所 说 的 抽象 概念 可 以 是 一 个 类 别 (如 “人 ”) 或 是 一 
个 特征 。 特 征 指 的 是 传感器 输入 信号 的 一 个 函数 ， 它 可 以 是 离散 的 〈 例 如 “ 输 
入 的 句子 是 否 是 过 去 时 态 ”) ， 或 者 连续 的 〈 如 “输入 的 视频 展示 了 一 个 物体 在 
以 2m/s 的 速度 运动 ") 。 许 多 较 低 层级 和 中 间 层 级 的 概念 〈 也 可 以 被 称 作 抽象 ) 
对 于 构建 一 个 检测 “人 ”的 系统 是 很 有 用 的 。 较 低层 级 的 抽象 和 特定 的 感知 有 
着 更 直接 的 联系 ， 而 更 高 层级 的 抽象 则 以 中 间 层 级 的 抽象 为 基础 ， 它 与 实际 感知 
的 联系 更 微弱 。 

产生 适当 的 中 间 层 抽象 是 件 困 难 的 任务 。 此 外 ， 一 个 所 谓 “ 智 能 ”的 机 顺 
要 掌握 的 图 像 和 语义 概念 (例如 “人 ”) 也 非常 多 。 因 此 ,深度 结构 就 希望 能 以 
自动 化 的 方式 发 现 这 些 抽 象 ， 从 最 低层 次 的 特征 到 最 高 层次 的 概念 。 理 想 情 况 
下 ， 我 们 希望 人 工 干预 尽 可 能 少 ， 不 需要 人 为 定义 所 有 必要 的 抽象 ， 或 者 是 提供 
大 量 人 工 标注 的 数据 。 如 果 算 法 能 自动 处 理 网 上 存在 的 大 量 图 片 和 文字 ， 肯 定 有 
助 于 把 人 类 的 知识 转换 成 机 带 可 理解 的 形式 。 






















































































4 ) 人 工 智能 中 的 深度 结构 学 习 


1.1 如 何 训 练 深度 结构 


深度 学 习 希 望 能 学 到 特征 的 层次 结构 ， 其 中 较 高 层次 特征 由 较 低层 次 特征 组 
合 而 来 。 自 动 地 学 习 这 些 多 层次 的 特征 可 以 让 机 器 学 到 从 数据 输入 直接 映射 到 输 
出 的 复杂 函数 ， 而 不 是 完全 依赖 于 人 工 特征 。 这 对 于 处 理 高 层次 的 抽象 是 很 重要 
的 ， 因 为 我 们 往往 也 不 知道 如 何 根据 原始 输入 定义 它们 。 随 着 机 器 学 习 方法 数据 
量 和 应 用 范围 的 增长 ， 自 动 学 习 强 特征 的 能 力 将 越 来 越 重要 。 

结构 的 深度 指 的 是 机 器 学 得 的 函数 中 ， 由 非 线 性 操作 组 成 的 层级 数量 。 目 前 
大 多 数 训练 算法 所 学 到 的 都 只 是 浅 层 结构 (1 ~3 层 ) ， 但 是 哺乳 动物 的 大 脑 用 的 
是 深度 结构 [13] 。 原 始 感知 的 输入 被 多 层次 的 抽象 所 表征 ， 每 一 层次 对 应 着 大 脑 
皮层 的 不 同 区 域 。 人 类 也 是 用 类 似 的 方法 处 理 的 。 大 脑 处 理 信 息 的 方式 似乎 是 经 过 
了 多 层 的 转换 和 表示 。 这 在 灵 长 动物 的 视觉 处 理 系统 中 得 到 了 验证 [3] 。 其 处 理 方式 
是 有 顺序 结构 的 ， 从 检测 边缘 的 存在 ， 到 简单 图 形 ， 然 后 是 更 复杂 的 视觉 图 案 。 

受 大 脑 结构 深度 处 理 方式 的 启发 ， 神 经 网 络 的 研究 者 们 在 几 十 年 来 一 直 希 望 
能 训练 多 层 神经 网 络 09.91 ， 在 2006 年 之 前 都 没有 成 功 S， 他 们 在 使 用 两 到 三 
层 结构 (也 就 是 一 到 两 个 隐 层 ) 时 有 较 好 的 结果 ,但 是 层次 越 深 ,结果 越 差 。 
直到 2006 年 才 有 突破 性 进展 :多伦多 大 学 的 Hinton 等 人 构建 了 深度 置信 网 络 
(DBNs) [53] ， 其 学 习 算法 每 次 只 对 一 个 层级 用 贪心 的 思想 做 训练 ， 每 一 层 采用 
受 限 玻 尔 效 曼 机 (RBM)I54 ， 因 此 可 以 用 无 监督 学 习 的 方法 训练 。 此 后 不 久 ， 
基于 自动 编码 器 的 相关 算法 也 被 提出 [57 ,5331 ， 用 的 也 是 类 似 的 思想 一 用 无 监督 
学 习 独 立地 训练 中 间 层 。 最 近 ， 基 于 同一 思想 ， 也 有 一 系列 其 他 深度 结构 ( 受 
限 玻 尔 兹 曼 机 和 自动 编码 器 之 外 ) 的 训练 方法 被 提 了 出 来 31202] ( 见 第 4 


章 ) 。 














”除了 一 种 特殊 的 神经 网 络 一 一 卷 积 网 络 ， 我 们 在 4. 5 节 会 提 到 。 


1 引 FLS 


2006 年 以 来 ， 深度 网 络 不 仅 被 成 功 地 运用 在 分 类 任务 
E2179, 10145153,15]， 在 回归 09]、 降 维 [,131、 纹 理 建 模 [4J、 运 动 跟 
Bgl 182.1831 Aya. fA E a RUSIS] ge ATOL, H AR A A 
[37,130,202] 以 及 协同 滤波 52 1 等 方面 都 有 成 功 的 案例 。 虽 然 自动 编码 器 、 受 限 
玻 尔 兹 曼 机 以 及 深度 置信 网络 使 用 的 是 无 监督 学 习 ， 在 上 述 的 许多 应 用 中 ， 它 们 
已 被 成 功 地 用 于 初始 化 深度 有 监督 前 馈 神 经 网 络 的 参数 。 








1.2 中 间 层 表示 : 在 不 同 的 任务 中 共享 特征 和 抽象 





由 于 深度 结构 可 以 认为 由 一 系列 层级 组 合 而 成 ， 随 之 而 来 的 问题 就 是 在 每 一 

层级 里 ， 它 的 输出 〈 也 就 是 下 一 层 的 输入 ) 都 是 如 何 表达 原始 数据 的 呢 ? 层级 
之 间 的 连接 是 怎样 的 ? 最 近 对 于 深度 结构 的 研究 重点 之 一 就 是 中 间 层 的 表示 : 次 
度 结构 的 成 功 源 于 在 中 间 层 使 用 受 限 玻 尔 效 曼 机 [23] 、 自 动 编码 器 :7 、 稀 玻 自 
动 编码 吉 !0525] 或 是 降 噪 自动 编码 器 5] ， 并 采用 无 监督 学 习 的 方式 学 习 。 
些 算法 (会 在 7.2 PRANA) 可 以 看 作 是 对 “表示 ”( 下 一 层级 的 输入 ) 做 转 
换 ， 将 波动 影响 因子 更 好 地 拆 解 开 。 在 第 4 章 我 们 将 会 具体 介绍 ， 无 数 的 观测 结 
果 表 明 ， 当 每 一 层次 有 和 较 好 的 表示 后 ， 我 们 就 可 以 用 这 些 参数 作为 初始 参数 ， 用 
监督 学 习 中 的 梯度 优化 方法 成 功 地 训练 一 个 深度 神经 网 络 。 

在 大 脑 中 ， 每 个 层次 的 抽象 都 是 由 一 些 “ 激 活 ”( 神 经 元 激励 ) 组 成 ， 这 些 
“激活 ”只 占 大 量 特征 中 的 一 小 部 分 ， 并 且 通 党 不 是 互 太 的 。 由 于 这 些 特 征 不 互 
斥 ， 它 们 组 成 了 所 谓 的 分 布 式 表 示 !9'561 一 信息 并 不 是 局 限 在 某 一 个 神经 元 
里 ， 而 是 分 布 在 许多 神经 元 之 中 。 此 外 ， 大 脑 对 特征 的 存储 似乎 是 稀 玻 的 一 一 只 
有 大 约 1% ~4% 的 神经 元 在 某 个 时 刻 是 活跃 的 5,"3] 。3. 2 节 将 会 介绍 稀 玻 分 布 
式 表 示 的 概念 ， 在 7. 1 节 会 进一步 详细 摘 述 相关 的 机 天 学 习 方 法 。 其 中 一 些 方法 
是 受到 大 脑 中 稀 玻 表征 的 特点 启发 ， 并 用 于 搭建 含有 稀 琉 表示 的 深度 结构 。 

稠密 的 分 布 式 表 示 是 这 类 表示 的 一 个 极 庙 ， 稀 下 表 示 处 于 中 间 位 置 ， 而 完全 
的 局 部 表示 则 是 男 一 个 极端 。 表 示 的 局 部 性 和 所 谓 “ 局 部 汉化 ”的 概念 是 紧密 
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相连 的 。 许 多 现 有 的 机 器 学 习 算 法 在 输入 空间 里 是 局 部 的 : 为 了 在 不 同 的 数据 空 
间 中 有 不 同 的 表现 ， 这 些 算 法 需要 有 一 套 不 同 的 参数 (3. 1 节 有 详细 介绍 ) 。 虽 
然 当 参数 量 很 大 的 时 候 ， 统 计 效 率 未 必 很 差 .但 是 为 了 获得 较 强 的 泛 化 能 力 ， 往 
往 需 要 加 上 一 些 先 验 知 识 才 行 ( 例 如 倾向 于 选择 数值 较 小 的 参数 ) 。 如 3. 1 节 最 
后 所 讨论 的 ， 当 这 些 先 验 知识 不 是 针对 特定 任务 的 时 候 ， 它 们 可 能 会 让 模型 变 得 
很 平滑 。 与 这 些 基于 局 部 泛 化 的 模型 相 比 ， 使 用 分 布 式 表 示 所 能 区 分 的 模式 数目 
可 能 与 表示 的 维 数 〈 即 学 习 到 的 特征 数目 ) 呈 指 数 关系 。 

在 许多 机 带 视 觉 的 系统 中 ， 学 习 算 法 只 限制 于 这 样 一 个 处 理 链 条 的 特定 部 
分 ， 其 余部 分 仍 需要 大 量 人 工 参 与 。 这 会 限制 系统 的 规模 。 而 且 ， 智 能 机 器 的 一 
个 标志 是 能 识别 足够 多 的 概念 ， 而 不 只 是 识别 “人 ”这 个 类 别 。 因 此 ， 需 要 一 
个 能 处 理 很 多 不 同 任务 和 概念 的 算法 。 人 工 定义 这 么 多 任务 显然 不 可 能 ， 所 以 自 
动 学 习 在 这 种 情境 下 变 得 非常 重要 。 此 外 ， 任 务 之 间 和 任务 需求 的 概念 之 间 的 潜 
在 共性 非常 重要 ,不 利用 这 些 条 件 是 不 明智 的 ， 而 这 一 直 是 多 任务 学 
习 [7832.8486] 的 研究 重点 。 多 层级 结构 很 自然 地 提供 部 件 共 享 和 复 用 : 低层 级 
的 特征 (如 边缘 检测 ) 和 中 间 层 的 特征 〈 如 局 部 目标 ) 不 仅 对 识别 人 是 有 用 的 ， 
在 很 多 其 他 的 视觉 任务 里 也 起 作用 。 

深度 学 习 是 基于 学 习 跨 任务 可 共享 的 中 间 表 示 的 。 因 此 ， 深 度 学 习 能 利用 无 
监督 的 数据 和 来 自 相 似 任务 508] 的 数据 解决 大 型 任务 中 的 数据 荐 乏 问题 。 正 如 文 
献 [37] 显示 的 ， 它 在 几 个 自然 语言 任务 中 击败 了 最 先进 的 算法 。 文 献 [2] 也 
将 相似 的 深度 框架 的 多 任务 学 习 方法 应 用 于 视觉 任务 之 中 。 考 虑 这 样 一 个 多 任务 
情形 ， 不 同 的 任务 有 不 同 的 输出 ， 而 这 些 输出 从 共享 的 高 级 特征 池 中 获得 。 由 于 
这 些 通 过 学 习 得 来 的 特征 可 以 在 多 个 任务 中 共享 ， 这 就 使 得 统计 上 的 强度 正比 于 
任务 的 个 数 。 而 这 些 高 级 特征 本 身 又 能 通过 公共 池 中 的 低级 别 中 间 特 征 的 组 合 来 
表达 ， 统 计 强 度 再 一 次 能 用 相似 的 方式 获得 ， 并 且 这 个 策略 能 在 深度 框架 的 每 一 
个 层级 中 使 用 。 

此 外 ， 对 于 大 量 相关 概念 的 学 习 有 助 于 实现 人 类 能 做 的 “宽泛 抽象 ”"， 而 这 
一 目标 无 法 通过 为 每 个 视觉 类 别 独 立 的 训练 一 个 分 类 器 去 达到 。 如 果 每 个 高 层 的 
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类 别 都 是 由 公共 池 中 抽象 特征 的 组 合 得 到 的 ， 则 通过 这 些 特征 的 新 组 合 就 能 很 自 
然 地 推广 到 未 见 过 的 类 别 上 。 即 使 只 有 一 部 分 这 样 特征 的 组 合 出 现在 训练 样本 
中 ， 由 于 它们 表示 了 数据 不 同 的 侧面 ， 新 样本 也 会 通过 这 些 特征 新 的 组 合 来 有 意 
义 地 表达 。 
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在 以 上 所 提 及 的 问题 的 基础 上 ， 我 们 把 视野 扩展 到 广义 的 人 工 智 能 中 ， 对 人 
工 智能 训练 算法 提出 了 一 些 能 力 上 的 要 求 。 我 们 认为 这 些 要 求 很 重要 ， 并 且 对 研 
究 有 推动 意义 : 

学 习 复 杂 、 高 度 变 化 的 函数 (其 变化 的 数量 远大 于 训练 样本 ) 。 
通过 很 少 的 人 工 输 入 ， 学 习 各 个 层级 (低层 级 、 中 间 层 级 、 高 层级 ) 
的 抽象 概念 。 这 些 抽象 概念 对 于 表示 复杂 的 函数 是 有 益处 的 。 

。 能 从 大 量 样本 中 学 习 : 关于 样本 数量 的 训练 时 间 复 杂 度 应 该 趋 近 于 线性 。 
能 从 大 部 分 无 标注 数据 的 数据 集中 进行 学 习 (也 就 是 半 监 督学 习 场 景 )， 
其 中 有 些 数据 没有 完整 或 者 正确 地 标注 。 

© 能 表示 大 量 任务 之 间 的 共性 〈 即 多 任务 学 习 ) 。 这 些 共 性 之 所 以 存在 ， 是 
因为 所 有 的 人 工 智 能 任务 都 只 是 真实 情况 的 不 同 表现 方式 。 

。 能 有 很 强 的 无 监督 学 习 能 力 〈 即 能 发 现 观测 数据 中 的 结构 ) 。 这 对 于 突破 
目前 很 多 任务 的 瓶颈 是 很 有 必要 的 ， 并 且 很 多 未 来 的 任务 也 不 能 提前 知道 。 

还 有 一 些 能 力 和 本 书 没 有 直接 的 联系 ,但 是 也 同样 重要 。 例 如 能 学 习 变 长 或 
变 结构 的 上 下 文 情境 表达 104] ， 从 而 让 机 器 可 以 在 上 下 文 相 关 的 情境 下 运行 并 针 
对 观测 数据 流 ， 做 出 一 系列 的 行为 决策 ; 例如 当 决 策 会 影响 未 来 的 观测 和 利益 
时 ， 能 有 合理 的 考虑 "8 ;为 了 收集 更 多 关于 真实 世界 的 数据 ， 能 采取 行动 做 出 
探索 (也 就 是 主动 学 习 的 一 种 形式 ) [41 等。 
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1.4 本 书 大 纲 


第 2 章 回顾 了 一 些 理论 成 果 (可 以 跳 过 ， 对 于 之 后 章 广 的 理解 没有 影响 )， 
说 明了 结构 的 深度 和 任务 需要 相 匹 配 ， 过 于 浅 层 的 结构 会 使 得 计算 元 素 急 剧 增加 
(对 于 输入 规模 可 能 是 指数 型 的 ) 。 我 们 提出 ， 过 于 浅 层 的 结构 是 有 害 于 学 习 的 。 
如 果 用 一 个 大 型 的 浅 层 结构 来 表示 任务 (有 大 量 计算 元 素 ) ， 为 了 调整 其 中 的 每 
一 个 元 素 并 学 习 一 个 高 可 变 函 数 ， 我 们 会 需要 大 量 的 样本 。3. 1 市 通过 说 明 局 部 
泛 化 和 局 部 估计 的 缺陷， 进一步 说 明了 深度 结构 的 动机 。 我 们 和 希望 通过 含有 分 布 
式 表 示 的 次 度 结构 来 避免 这 些 缺 陷 〈 见 3.2 节 )。 

本 书后 面 的 部 分 阐述 并 分 析 了 一 些 用 于 训练 深度 结构 的 算法 。 根 据 神经 网 络 
的 相关 文献 ， 第 4 童 介 绍 了 一 些 关 于 训练 深度 结构 的 概念 。 我 们 首先 指出 了 先前 
训练 多 层 神经 网 络 的 困难 之 处 ， 然 后 介绍 了 用 于 初始 化 深度 神经 网 络 的 无 监督 学 
JMA, AF, RERA (包括 受 限 玻 尔 兹 曼 机 ) 和 自动 编码 器 的 训练 算法 相 
X: 通过 简单 的 无 监督 学 习 ， 在 一 个 单 层 模 型 上 得 到 输入 的 分 布 式 表 
示 [”'3,156] 。 为 了 彻底 理解 受 限 玻 尔 兹 曼 机 和 相关 的 无 监督 学 习 算 法 ,第 5 章 介 
绍 了 一 类 基于 能 量 的 模型 ， 可 用 于 搭建 含有 隐 变 量 的 生成 模型 (如 玻 尔 兹 曼 机 )。 
第 6 章 重点 讲述 了 如 何 用 逐 层 贪心 训练 算法 训练 深度 置信 和 网络 (DBNs) [531 以 及 堆 
半自动 编码 器 [13.1%]。 第 6 章 讨论 了 受 限 玻 尔 兹 曼 机 和 自动 编码 髓 的 一 些 变 
体 ， 它 们 被 用 于 扩展 和 改进 原本 的 模型 。 其 中 有 些 考虑 了 稀 玻 性 和 对 时 序 依赖 的 
建 模 。 第 8 章 讨论 了 如 何 通过 变 分 方法 联合 训练 深度 置信 网 络 的 所 有 层级 。 最 
后 ,我 们 在 第 9 章 提 出 一 些 展望 性 的 问题 ， 比 如 在 训练 深度 结构 时 的 复杂 优化 问 
题 。 我 们 认为 ， 目 前 训练 深度 结构 的 成 功 部 分 源 于 对 于 低层 级 特征 的 优化 。 我 们 
讨论 了 一 些 延 拓 法 的 原理 。 它 们 通过 最 小 化 一 个 逐渐 变 得 不 平滑 的 代价 函数 , 来 
实现 深度 结构 的 优化 。 











2 
深度 结构 的 理论 优势 


在 本 节 中 ， 通 过 理论 上 分 析 浅 层 结构 的 局 限 性 ， 讨 论 研究 基于 深度 结构 的 学 
习 算法 的 动机 。 本 书 的 这 部 分 (包括 本 节 和 下 一 节 ) 将 讲述 为 什么 会 提出 之 后 
章节 中 描述 的 算法 。 跳 过 这 部 分 并 不 会 影响 后 面 章节 的 阅读 。 

本 节 的 主要 观点 是 : 过 浅 的 结构 (就 可 调 参数 的 数目 而 言 ) 不 能 有 效 地 表 
达 某 些 函 数 。 这 说 明 探究 深度 结构 的 学 习 算 法 是 有 价值 的 ， 深 层 结 构 可 以 表示 一 
些 被 其 他 结构 无 法 有 效 表示 的 函数 。 在 简单 和 较 浅 的 结构 不 能 有 效 表示 (甚至 
去 学 习 ) 的 目标 任务 上 ， 我 们 可 以 寄 希 望 于 基于 深度 结构 的 学 习 算 法 。 

当 一 个 函数 表达 式 具 有 较 少 的 计算 元 素 (Computational Elements) 时 ， 我 们 
称 这 个 函数 表达 式 是 紧凑 的 (Compact), ， 即 需要 在 学 习 过 程 中 调整 的 自由 度 是 
小 的 。 因 此 ， 对 于 有 固定 数量 的 训练 样本 ， 并 且 缺 少 其 他 输入 到 学 习 算 法 的 知识 
来 源 时 ， 我 们 希望 目标 函数 2 的 紧凑 表示 将 会 带 来 更 好 的 泛 化 性 。 

更 准确 地 说 ， 一 个 能 够 被 深度 为 天 的 结构 来 紧凑 地 表示 的 函数 ， 如 果 用 一 个 
REH k-1 的 结构 来 表示 ， 可 能 需要 指数 级 的 计算 元 素 。 因 为 可 承受 的 计算 元 
素 的 数量 取决 于 用 来 调整 或 选择 它们 的 训练 样本 的 数量 ， 所 以 这 带 来 的 影响 既是 
计算 上 的 也 是 统计 上 的 一 一 使 用 深度 不 够 的 结构 来 表达 某 些 函数 时 ， 可 以 预见 泛 
化 能 力 会 比较 弱 。 

考虑 固定 维 数 输入 的 情形 ， 可 以 使 用 一 个 有 向 无 环 图 表示 机 器 执行 的 计算 。 
图 中 每 个 节点 都 利用 其 输入 执行 一 个 函数 的 计算 ， 每 个 输入 都 是 图 中 另 一 个 节点 























”目标 函数 是 我 们 想 让 机 器 发 现 的 函数 映射 。 
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的 输出 或 是 来 自 图 的 外 部 的 输入 。 整 个 图 可 以 看 作 是 一 个 电路 ， 实 现 了 对 外 部 输 
入 的 函数 计算 。 当 计算 节点 允许 的 函数 集合 仅 限于 逻辑 门 时 ， 诸 如 “与 ”“ 或 ” 
“ 非 ”(AND，OR，NOT) ， 这 就 是 一 个 布尔 电路 或 逻辑 电路 。 

为 了 形式 化 结构 深度 的 概念 ， 必 须 引 入 计算 元 素 (Computational Elements) 
集合 的 概念 。 这 种 集合 的 一 个 例子 是 逻辑 门 ， 可 以 执行 的 运算 的 集合 。 再 举 一 个 
例子 就 是 由 人 工 神经 元 〈 依 赖 于 它 的 权重 取 值 ) 执行 的 运算 的 集合 。 一 个 函数 
可 以 用 给 定 计 算 元 素 集合 中 元 素 的 组 合 来 表示 。 用 一 个 形式 化 这 种 组 合 的 图 来 定 

个 函数 ， 其 中 每 一 个 计算 元 素 都 用 一 个 节点 来 表示 。“ 结 构 深 度 ” 是 指 计算 
元 素 连接 图 的 深度 ， 即 从 一 个 输入 节点 到 输出 节点 的 最 长 路 径 。 当 计算 元 素 集合 
是 人 工 神经 元 可 执行 的 运算 的 集合 时 ， 深 度 对 应 于 神经 网 络 中 的 层 的 数目 。 让 我 
们 用 不 同 次 度 的 结构 的 实例 来 探索 深度 的 概念 。 考 虑 函数 f(x) =x * sin(a*x+ 
b) 。 如 图 2.1 所 示 ， 它 可 以 表示 为 简单 运算 的 组 合 。 这 些 简 单 运算 如 加 法 、 减 
法 、 乘 法 以 及 sin 运算 。 在 这 个 例子 中 ， 乘 法 a *x 和 最 后 的 关于 x 的 乘法 会 用 不 
同 的 节点 来 表示 。 图 中 的 每 一 个 节点 都 和 一 个 输出 值 相关 联 。 这 些 输出 值 都 是 使 
用 一 些 函数 在 输入 值 上 进行 计算 得 到 的 。 而 这 些 函 数 的 输入 值 又 是 图 中 其 他 节点 
的 输出 值 。 例 如 ， 在 逻辑 电路 中 ， 每 个 节点 可 以 计算 一 个 小 的 布尔 函数 集合 中 的 
某 个 布尔 函数 。 该 图 作为 一 个 整体 具有 输入 节点 和 输出 节点 ， 并 表达 了 一 个 从 输 
入 到 输出 的 函数 。 一 个 结构 的 深度 是 从 图 中 任意 输入 到 任意 输出 路 径 的 最 大 长 
度 ， 如 在 图 2.1 中 ,x*sin (a*x+b) 的 深度 是 4。 

A a ZL (Sig- 
moid) 的 可 能 组 合 ， 则 线性 回归 和 逻辑 回归 的 次 度 为 1， 即 只 有 一 层 (Level)。 

。 当 我 们 把 一 个 固定 的 核 计算 Ku, v) 与 其 他 仿 射 ( Affine) 操作 放 在 允许 
的 运算 集合 里 ， 带 有 固定 核 的 核 机 器 (Kernel Machines) H66) 可 以 被 认为 具有 两 
层 深 度 。 第 一 层 对 于 每 个 x，( 选 定 的 代表 性 训练 样 例 ) ， 都 有 一 个 计算 元 素 计 算 
核 函 数值 K(x,x;) ， 把 输入 向 量 * 与 代表 样本 x 匹配 起 来 。 第 二 层 进行 仿 射 组 合 
(Affine Combination) b + 2 ,QiK(x,x;) 把 匹配 好 的 x ; 和 期 望 的 响应 关联 起 来 。 

。 当 我 们 把 人 工 神 经 元 ( 仿 射 变换 后 接 非 线性 变换 ) 放 进 计算 元 素 集合 里 ， 
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图 2. 1 一 个 计算 图 表示 函数 的 例子 。 每 一 个 节点 都 是 从 允许 计算 的 “元 素 集合 ”中 选 
择 的 。 左 图 中 ， 元 素 是 | * , +，- ,sin| UR 。 该 结构 计算 x* sin(a *x+b) 且 深度 为 4。 石 
图 中 ， 元 素 是 计算 f(x) =tanh(45+w'x) 的 人 工 神经 元 ; 每 个 集合 中 的 元 素 具 有 不 同 的 参数 
(w,5)。 结 构 是 一 个 多 层 神 经 网 络 ， 深 度 为 3 










































































可 以 得 到 普通 的 多 层 神经 网 络 1156] 。 最 常见 的 选择 是 有 一 个 隐藏 层 ， 因 此 深度 为 
2 (隐藏 层 和 输出 层 ) 。 

。 决策 树 也 可 视 为 两 层 ， 将 在 3. 1 节 中 进行 讨论 。 

© BIHE (Boosting) 5551 方法 通常 在 构成 它 的 基础 的 弱 学 习 器 上 又 增加 了 一 
层 一 一 该 层 对 基础 的 弱 学 习 器 的 输出 进行 投票 表决 或 计算 其 线性 组 合 以 得 到 最 终 
的 输出 。 

© SE (Stacking) 2051 方 法则 是 另 一 种 增加 了 一 层 的 元 学 习 ( Meta - learn- 
ing) 算法 。 

e 基于 目前 脑 解 剖 的 知识 :3] ， 大 脑 皮 层 可 以 被 看 作 是 一 个 深层 的 结构 ， 
仅 是 视觉 系统 就 有 5 ~ 10 层 。 

尽管 深度 取决 于 每 个 元 素 允 许 的 计算 集合 的 选择 ， 但 是 一 个 集合 相关 的 图 经 
常 可 以 通过 增加 深度 的 图 变换 方式 转换 为 另 一 个 集合 相关 的 图 。 理 论 结果 表明 ， 
重要 的 不 是 绝对 的 层级 数目 ， 而 是 能 够 有 效 地 表达 目标 函数 所 需要 的 相对 层级 
数目 。 
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”计算 复杂 性 





关于 深层 结构 的 模型 能 力 最 正式 的 论据 来 自 于 对 电路 的 计算 复杂 性 的 探究 。 
基本 结论 是 : 如 果 一 个 函数 可 以 由 深度 结构 紧凑 地 表示 ， 则 采用 深度 不 足 的 结构 
去 表达 它 需 要 非常 庞大 的 结构 。 

逻辑 门 的 两 层 电 路 可 以 表示 任何 布尔 函数 527] 。 任 何 布尔 函数 都 可 以 写成 乘 
积 的 和 的 形式 ( 析 取 范式 : 第 一 层 是 “与 (AND)” 门 与 在 输入 上 可 选 的 “ 非 
(NOT)” 操 作 ， 第 二 层 是 “或 (OR)” 门 ), 或 者 是 和 的 乘积 的 形式 ( 合 取 范 
式 : 第 一 层 是 “或 (OR)” 门 与 在 输入 上 可 选 的 “ 非 (NOT)” 操 作 ， 第 二 层 是 
“与 (AND)” 门 ) 。 为 了 理解 浅 层 结构 的 限制 ， 应 首先 考虑 使 用 两 层 逻 辑 电 路 ， 
大 多 数 布尔 函数 需要 指数 级 〈 与 输入 大 小 相关 ) 的 逻辑 门 %] 来 表示 。 

更 有 趣 的 是 ， 有 些 函 数 在 深度 为 下 时 可 以 用 多 项 式 级 数量 的 逻辑 门 电路 计 
算 ， 而 将 深度 限制 为 大 -1 时 就 需要 指数 级 别 的 数量 了 [@] 。 这 个 定理 的 证 明 依 赖 
于 更 早 的 结论 !2%] ， 证 明 指 出 深度 为 2 的 a 位 奇偶 校 验 电路 具有 指数 级 大 小 。d 
位 奇偶 校 验 函数 一 般 定义 为 

















b; 是 偶数 


Ms 


(bi, b4) © {0,142 > 加 a 1 
0, 其 他 情况 

有 人 可 能 会 好 奇 这 些 布尔 电路 的 计算 复杂 性 结果 与 机 器 学 习 是 否 有 联系 。 参 
见 文献 [140] 可 以 发 现 与 学 习 算法 相关 的 计算 复杂 度 的 早期 研究 理论 成 果 。 有 
趣 的 是 ， 很 多 关于 布尔 电路 的 结果 可 以 被 推广 到 计算 元 素 是 线性 阔 值 单元 (也 

称 为 人 造 神经 元 5]) 的 结构 ， 其 计算 表达 式 为 
fx) = loz0 (2.1) 
st, w 和 尹 是 参数 。 电 路 的 扇 人 (Fan -in) 是 某 个 特定 计算 元 素 的 最 大 输入 
数目 。 电 路 经 常 被 组 织 成 多 层 ， 就 像 多 层 神 经 网 络 ， 在 一 层 上 的 元 素 只 以 来 自前 
上 一 层 的 元 素 作 为 输入 ， 而 第 一 层 是 神经 网 络 的 输入 。 电 路 的 大 小 是 它 计算 元 素 
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(不 包括 输入 元 素 ， 因 为 它们 不 执行 任何 计算 ) 的 数量 。 

当 试 图 紧凑 地 表示 一 个 可 以 用 深度 为 的 电路 表示 的 函数 时 ， 以 下 定理 特别 
有 趣 ， 它 适用 于 单调 加 权 阔 值 电 路 ( Monotone Weighted Threshold Circuits) ( 即 
具有 线性 阔 值 单元 且 权 重 为 正 的 多 层 神经 网 络 ) 。 

定理 2.1 用 一 个 深度 为 -1 的 单调 加 权 阔 值 电路 去 计算 函数 广 s Fa 时 ， 
其 大 小 至 少 为 2 ， 其 中 c > 0 是 某 个 常数 ，NW> MI91 。 

这 类 函数 . 的 定义 如 下 : 该 函数 是 一 个 树 状 的 深度 为 的 电路 ， 它 包含 
N* 忆 个 输入 。 树 的 叶子 是 非 负 的 输入 变量 ， 函 数值 在 树 的 根 节点 。 从 底 端 起 ， 
对 于 树 的 第 ; 层 ， 当 ; 为 偶数 时 ， 该 层 由 AND 门 组 成 ， 当 i 为 奇数 时 ,该 层 由 
OR 门 组 成 。 最 顶层 和 最 底层 的 请 人 (Fan -in) HN, MHEN M 

上 述 结果 既 不 能 证 明 其 他 类 的 函数 (例如 ， 为 完成 人 工 智 能 任务 ， 我 们 想 
学 习 的 函数 ) 需要 深度 结构 ， 也 不 能 证 明 所 说 的 这 些 限制 适用 于 其 他 类 型 的 电 
路 。 然 而 ， 这 些 理论 结果 都 涉及 了 这 个 问题 : 通常 在 大 多 数 机 器 学 习 算 法 中 由 到 
的 深度 为 1、2 和 3 的 结构 ， 对 于 人 工 智能 任务 中 需要 的 复杂 函数 是 不 是 因为 太 
浅 而 不 能 有 效 地 表示 ? 类 似 上 述 定理 的 结果 也 显示 可 能 不 存在 通用 的 正确 深 
度 一 一 每 个 函数 ( 即 每 个 任务 ) 对 于 一 个 给 定 的 计算 元 素 集 合 ， 可 能 需要 一 人 
特定 的 最 小 深度 。 因 此 应 该 努力 开发 使 用 数据 来 确定 最 终结 构 深 度 的 学 习 算法 。 
还 要 注意 的 是 ， 采 用 递归 运算 定义 一 个 计算 图 ， 这 个 图 的 深度 与 迭代 的 次 数 呈 线 
性 增加 关系 。 


2.2 一些 非 正 式 的 论证 


结构 深度 与 高 可 变 函 数 的 概念 有 一 定 联系 。 我 们 认为 ， 在 通常 情况 下 深度 结 
构 能 够 紧凑 地 表示 高 可 变 函 数 ， 而 同样 一 个 函数 如 果 用 不 恰当 的 结构 来 表示 ， 却 
需要 非常 多 的 参数 。 当 一 个 函数 (例如 ， 分 段 常 数 或 者 分 段 线性 函数 ) 需要 用 
非常 多 的 分 段 来 近似 时 ， 我 们 称 它 为 高 可 变 函 数 。 深 度 结构 是 许多 操作 的 组 合 ， 
任意 的 一 个 深度 结构 都 能 被 一 个 足够 大 的 两 层 结构 表示 。 一 个 较 小 的 深度 结构 中 
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计算 单元 的 组 合 可 以 看 作 一 个 较 大 浅 层 结构 中 计算 单元 的 “ 因 式 分 解 ”"。 重 新 组 
织 计 算 单 元 的 组 成 方式 对 减少 表示 (同一 种 运算 ) 需要 的 参数 量 有 巨大 的 作用 。 
比如 ,假设 有 一 个 深度 为 2k 的 多 项 式 的 表示 ， 它 的 奇数 层 实现 乘法 操作 ， 偶 数 
层 实现 加 法 操作 。 这 类 结构 可 以 被 看 作 非 常 高 效 的 因 式 分 解 ， 因 为 如 果 把 它 压 缩 
成 一 个 深度 为 2 的 结构 ， 比 如 一 些 乘积 的 求 和 ， 那 么 这 种 浅 层 结构 需要 相当 多 的 
因 式 来 完成 求 和 一 一 考虑 深度 24 结构 中 第 一 层 的 积 (如 图 2.2 P xx ra), 
它 会 在 深度 为 2 的 结构 中 作为 因 式 出 现 很 多 次 。 从 这 个 例子 中 可 以 推断 出 ， 如 果 
一 些 运算 ( 比如 在 第 一 层 ) 能 够 在 展开 后 的 2 层 结构 表达 式 中 被 共享 ， 那 么 深 
度 结构 将 是 有 优势 的 。 在 这 种 情况 下 ， 需 要 表达 的 总 表达 式 可 以 被 分 解 开 ， 即 被 
深度 结构 更 紧凑 地 表达 。 















































(x1x2)( rars Jta (re) + (2x3) + (X2x3)(%3%4) 





图 2.2 一 个 用 来 展示 深度 结构 因子 化 的 多 项 式 电路 的 例子 。 这 里 ， 奇 数 层 做 乘法 ， 侦 数 
层 做 加 法 。 例 如 ， 第 一 层级 的 乘法 xx; 在 第 二 层级 的 如 图 所 示 的 多 项 式 展开 式 (乘积 的 和 ) 
中 出 现 许多 次 (次数 与 深度 成 指数 关系 ) 

文献 [19] 中 举 出 了 更 多 的 例子 论证 深度 结构 的 强大 表示 能 力 ， 以 及 它 在 
人 工 智 能 和 机 可 学 习 方面 的 潜力 。 在 这 之 前 ， 文献 [191] 从 偏向 认 知 的 角度 讨 
论 了 更 深层 结构 的 理论 优势 。 需 要 注意 的 是 ， 信 和 奉 连 接 主 义理 论 的 认 知 心理 学 家 
已 经 研究 很 久 的 一 种 思想 是 : 神经 计算 是 由 不 同 级 别 的 表示 按 分 层 结构 组 织 的 ， 
不 同 级 别 的 表示 代表 不 同 层次 的 抽象 ， 每 一 层 都 是 按 分 布 式 表示 方式 表达 
的 [5660234220244571 。 这 些 早期 的 发 展 为 本 书 讨论 的 现代 深度 结构 奠定 了 坚实 的 
基础 。 把 这 些 概念 引入 认 知 心理 学 (然后 是 计算 机 科学 与 人 工 智 能 ) 的 目的 有 
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两 点 ， 一 是 解释 某 些 早期 认 知 模型 不 能 自然 解释 的 现象 ， 二 是 把 认 知 学 的 解释 和 
神经 生物 基质 的 计算 特性 相互 联系 起 来 。 

总 之 , 一 些 计算 复杂 性 的 结果 有 力 地 表明 ， 对 于 同一 个 函数 ， 我 们 可 以 用 深 
度 为 天 的 结构 紧凑 地 表示 ， 但 如 果 用 更 浅 的 结构 去 表示 ， 则 需要 非常 多 的 元 素 。 
由 于 结构 中 的 每 一 个 计算 元 素 都 需要 被 选择 ， 或 者 说 用 样本 学 习 ， 上 述 结论 说 明 
了 深度 结构 从 统计 效率 角度 上 来 看 是 非常 重要 的 。 我 们 将 在 下 一 章 进一步 探讨 深 
度 结构 这 个 概念 ， 同 时 讨论 与 非 参数 学 习 算 法 相关 的 浅 层 结构 的 缺陷 一 一 佑 计 器 
的 输入 空间 的 局 部 性 。 




















3 
局 部 与 非 局 部 泛 化 性 


3.1 局 部 模板 匹配 的 局 限 性 


如 有 果 一 个 函数 的 可 变 度 比 训练 数据 的 数量 还 多 ， 那 么 学 习 算 法 怎样 紧凑 地 表 
达 这 样 的 “复杂 ”函数 呢 ? 这 个 问题 与 结构 的 深度 以 及 估计 器 的 局 部 性 都 有 关 。 
我 们 认为 ， 局 部 估计 器 虽然 能 被 深度 结构 有 效 地 表达 ,但 是 仍然 不 适合 于 学 习 高 
可 变 函 数 。 对 于 一 个 新 的 输入 *， 在 输入 空间 上 具有 “局 部 性 ”的 佑 计 咒 可 以 在 
仅 利 用 * 周围 的 训练 样本 的 情况 下 ， 就 能 得 到 很 好 的 泛 化 性 。 局 部 估计 带 显 式 或 
者 隐 式 地 把 输入 空间 分 成 几 个 区 域 (可 能 以 柔性 而 不 是 刚性 的 方式 ) ,为 了 把 目 
标 函 数 在 各 个 区 域 的 不 同形 状 刻画 出 来 ， 它 在 每 个 区 域 需要 不 同 的 参数 或 者 说 是 自 
由 度 。 当 目标 函数 是 一 个 高 可 变 的 函数 时 ， 就 需要 把 输入 空间 分 成 许多 的 区 域 ， 这 
样 需 要 的 参数 量 也 会 变 大 ， 同 时 所 需 的 训练 数据 也 要 相应 增加 才能 获得 好 的 泛 化 性 。 

局 部 泛 化 的 问题 和 维 数 灾难 的 概念 息息相关 ， 但 同时 我 们 引用 的 实验 结果 表 
明 ， 真 正 影 响 汉 化 性 的 并 不 是 维度 ， 而 是 我 们 希望 学 习 到 的 函数 的 “可 变 度 ”。 
比如 ， 如 果 模 型 表达 的 函数 是 分 段 常 值 函 数 (如 决策 树 )， 那 么 泛 化 性 的 影响 因 
素 则 是 合理 近似 目标 函数 所 需要 的 分 段 的 数量 。 当 然 ， 函 数 的 可 变 度 和 输入 的 维 
数 有 相互 的 联系 一 一 你 可 以 设计 一 系列 的 目标 函数 ， 让 它 的 可 变 度 与 输入 维 数 成 
指数 关系 ， 例 如 d 个 输入 的 奇偶 函数 。 

基于 局 部 模板 匹配 的 结构 可 以 看 作 某 种 两 层 结构 。 第 一 层 由 一 系列 能 够 与 答 
入 匹配 的 模板 组 成 。 一 个 模板 单元 可 以 输出 一 个 表示 匹配 程度 的 值 。 第 二 层 把 这 
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些 值 结合 起 来 ， 通 常情 况 下 用 简单 的 线性 组 合 (类 似 “ 或 ”操作 ) ， 用 以 预测 期 
望 的 输出 。 可 以 把 这 种 线性 组 合 看 作 一 种 插值 操作 ， 这 种 操作 可 以 产生 属于 给 定 
模板 之 间 区 域 的 答案 。 

基于 本 地 模板 匹配 结构 的 典型 例子 就 是 核 机 器 ''%] 

f(x) =b+ Sikri) (3.1) 
这 里 5 和 a 构成 了 第 二 层 ， 而 在 第 一 层 ， 就 是 核 机 器 K(x，x;) 去 匹配 输入 x 
和 训练 样本 x，( 公 式 中 的 求 和 是 在 训练 集中 全 部 或 者 部 分 输入 模式 上 进行 的 )。 
在 式 (3.1) P, f(x) 可 以 是 分 类 器 的 判别 函数 或 者 是 回归 预测 器 的 输出 。 

APA PRB K(x ,xz;) 仅 对 位 于 x*; 周围 的 连通 域 中 的 x 满足 K(x,x;) >p (p 
FSS BL) 时， 我 们 称 这 个 核 是 “局 部 的 ”"。 该 区 域 的 大 小 通常 由 核 函数 的 一 
个 超 参数 决定 。 我 们 可 以 把 高 斯 核 看 作 计算 柔性 交集 ， 因 为 它 可 以 被 写成 一 维 高 
斯 分 布 的 乘积 : K(u,v) = Tere’, WMR lu; -v1/o 在 所 有 的 7 上 都 比较 小 ， 
M Ku, n ERK, 那么 模式 就 匹配 成 功 了 。 WR lu, -v/o 对 某 个 j 比较 大 ， 则 
K(u,v) 较 小 ， 这 个 模式 就 没有 匹配 上 。 

核 机 器 的 著名 例子 不 仅 包括 了 支持 向 量 机 ”i 和 分 类 与 回归 问题 中 的 高 斯 
过 程 .1， 也 包括 了 分 类 、 回 归 和 密度 估计 问题 的 传统 非 参 数学 习 算法 ， 比 如 
近邻 算法 、Nadaraya - Watson 算法 、Parzen 窗 密 度 估计 算法 、 回 归 估计 器 等 。 下 
面 我 们 将 讨论 Isomap 和 LLE 这 样 的 流 形 学 习 算 法 ， 它 们 可 以 被 看 作 是 局 部 的 核 
机 器 ， 也 可 以 被 看 作 同 样 基于 构建 邻 域 图 (一 个 样本 对 应 一 个 节点 ， 同 时 相 邻 
样本 之 间 有 弧 连 接 ) 的 半 监 督学 习 算 法 。 

具有 局 部 核 的 核 机 器 能 够 得 到 泛 化 性 的 原因 是 利用 了 所 谓 的 平滑 性 先 验 假 
设 ， 即 假设 目标 函数 是 平滑 的 或 者 是 能 够 被 一 个 平滑 的 函数 很 好 地 近似 。 比 如 ， 
在 监督 学 习 中 ,假设 有 训练 样本 (x,,y,) ， 那 么 构造 一 个 f(x) 的 预测 器 ， 使 其 满 
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O 在 高 斯 过 程 中 ， 与 核 区 
件 期 望 。 








3 一 样 ， 式 (3.1) 中 的 f(x) 为 目标 变量 了 的 在 给 定 输入 x 下 的 待 预测 条 
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EH x Pox, 时， 预测 器 的 输出 接近 y; 是 很 显然 的 事情 。 需 要 注意 ， 这 样 的 先 
验 要 求 我 们 首先 定义 出 输入 空间 上 的 相似 度 。 平 滑 性 是 一 个 实用 的 先 验 假设 条 
件 ， 但 是 文献 [13] 和 [19] 认为 对 于 输入 空间 上 高 可 变 的 目标 函数 来 说 ， 

样 的 先 验 通常 不 足以 得 到 足够 好 的 泛 化 性 。 

高 斯 核 这 样 的 固定 通用 核 的 局 限 性 引发 了 许多 基于 任务 相关 的 先 验 知识 来 设 
TAK RFE OI 。 那 么 ， 如 果 我 们 并 没有 充分 的 先 验 知识 来 设计 一 个 
合适 的 核 ， 我 们 可 以 学 习 到 吗 ? 这 个 问题 同样 引发 了 许多 研究 ， 而 深度 

结构 则 是 其 中 一 个 非常 有 前 景 的 方向 。 Ree arias eas 

信和 网 络 学 习 特征 空间 可 以 提高 高 斯 过 程 核 机 器 的 性 和 PY Ja, 
它 的 参数 被 用 来 初始 化 一 个 确定 性 的 非 线性 变换 (一 个 多 层 神 经 网 络 ) ， 这 个 变 
换 能 够 计算 特征 向 量 〈 数 据 的 一 个 新 特征 空间 ) ， 我 们 可 以 通过 基于 梯度 的 优化 
方法 调整 这 个 变换 使 得 高 斯 过 程 的 预测 错误 最 小 。 这 个 特征 空间 可 以 看 作 自 动 学 
习 到 的 数据 表示 。 一 个 好 的 表示 应 该 让 具有 某 些 类 似 抽 象 特性 的 样本 之 间 变 得 更 
近 ， 这 些 抽象 特性 应 该 与 影响 数据 分 布 的 因素 有 关 。 深 度 结构 的 学 习 算 法 可 以 看 
作 学 习 核 机 器 的 特征 空间 的 方法 。 

假设 一 个 方向 v， 目 标 函 数 太 (理想 情况 下 学 习 器 应 该 学 到 的 函数 ) 沿 该 方 
EAI WE PALA 〈 即 当 a BE, f(x + az) -b IFA, EA 
正 ， 再 为 负 ， 然 后 再 为 正 ， 再 为 负 ， 如 此 往复 ) 。 以 文献 【165] 为 基础 ， 文 献 
[13, 19] 中 证 明 ， 对 于 高 斯 核 的 核 机 器 ， 需 要 的 样本 数 正 线性 相关 于 竺 学 习 的 
目标 函数 的 颠 艇 数 。 它 们 也 表明 对 于 奇偶 函数 这 种 具有 极 大 变化 性 的 函数 ， 在 采 
用 高 斯 核 的 时 候 ， 如 果 想 使 错误 率 降 到 一 定 水 平 ， 所 需 的 高 斯 核 中 的 样本 数量 是 
输入 向 量 维度 的 指数 量 级 。 对 仅 依 赖 目标 函数 局 部 平滑 (比如 高 斯 核 机 器 ) 先 
验 假设 的 学 习 器 来 说 ， 学 习 在 某 个 方向 上 正 负 符号 变化 很 多 的 函数 会 是 一 件 非 常 
困难 的 事情 (需要 巨大 的 VC 维度 和 相应 的 大 量 样本 )。 然 而 对 于 其 他 类 型 的 函 
数 ， 如 果 这 些 函 数 的 变化 模式 能 够 被 紧凑 地 获取 到 ， 它 们 就 能 被 学 习 到 (比如 
当 目 标 函 数 的 变化 是 周期 性 的 ， 同 时 备 选 函 数 中 某 一 类 函数 中 包含 了 能 近似 匹配 
它 的 周期 性 函数 ) 。 
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在 高 维 的 复杂 问题 中 ， 如 果 使 用 了 局 部 核 方法 ， 那 么 决策 面 的 复杂 性 可 以 很 
快 地 让 学 习 过 程 变 得 无 法 计算 。 但 同时 也 可 以 说 ， 如 果 曲 线 有 许多 可 变 度 ， 同 时 
这 些 可 变 度 彼此 之 间 没 有 潜在 的 规律 可 言 ， 那 么 没有 任何 学 习 算 法 能 够 比 具 有 输 
入 空间 局 部 性 的 估计 器 表现 得 更 好 。 然 而 ， 最 好 还 是 能 找到 描述 这 些 变 化 的 更 紧 
次 的 表示 方法 。 因 为 一 旦 找到 了 这 样 的 表达 ， 就 很 有 可 能 会 有 更 好 的 泛 化 性 ， 特 
别 是 对 于 训练 集中 没有 出 现 的 变化 方式 。 当 然 ， 这 种 情况 只 有 当 目 标 函 数 中 存在 
潜在 规律 可 供 提取 时 才 会 发 生 ; 我 们 希望 在 AI 任务 中 也 会 有 这 样 的 性 质 。 

我 们 发 现 具 有 输入 空间 局 部 性 的 估计 器 不 仅 存在 于 上 文 讨论 的 监督 学 习 算 法 
中 ,在 非 监 督 与 半 监 督学 习 算 法 中 也 存在 ， 比 如 ,局 部 线性 艇 入 "i 、Iso- 
map, ZEMA (IREZ PCA) Laplacian 本 征 映射 算法 "'”、 流 形 图 册 
化 算法 “ 、 频 谱 聚 类 算法 "” 和 基于 核 的 非 参 数 化 半 监 督 算法 ”*”” 。 这 些 
非 监督 与 半 监 督 算 法 大 部 分 依赖 于 邻 域 图 一 一 图 中 的 每 个 节点 都 是 一 个 样本 ， 弧 
连接 相 邻 的 节点 。 通 过 这 些 算 法 ， 读 者 能 够 对 它们 正在 做 什么 有 一 个 几何 上 的 直 
观 认 识 ， 同 时 也 能 理解 为 什么 成 为 一 个 局 部 的 估计 此 会 影响 它们 的 性 能 。 图 3. 1 
从 流 形 学 习 的 角度 解释 了 为 什么 这 样 说 。 再 一 次 地 ， 我 们 发 现 ， 为 了 把 函数 中 许 
多 可 能 的 变化 转换 为 可 学 习 的 ， 学 习 需 需要 一 定数 量 的 样本 ， 该 数量 与 需 覆 盖 的 
可 变 度 成 比例 中 1。 

最 后 ， 来 看 看 基于 邻 域 图 的 半 监 督学 习 算法 的 例子 ””2" ”9 。 这 些 算法 把 
邻 域 图 分 成 一 些 国定 标记 的 区 域 。 可 以 证 明 ， 具 有 固定 标记 的 区 域 数 量 不 能 多 于 
有 标注 的 样本 数 "” ， 所 以 学 习 央 至 少 需要 与 分 类 相关 的 可 变 度 一 样 多 的 标注 样 
本 数据 。 而 在 决策 面 拥有 非常 大 的 可 变 度 时 ， 获 取 这 样 大 规模 的 标注 数据 几乎 不 
可 行 。 

决策 树 ' 是 被 研究 得 最 充分 的 学 习 算法 之 一 。 由 于 它 专 注 于 处 理 输 入 变量 
的 某 一 个 子 集 ， 所 以 乍 一 看 好 像 是 非 局 部 算法 。 然 而 ， 决 策 树 的 基本 思想 是 将 输 
入 空间 进行 分 区 ， 然 后 对 各 个 区 域 使 用 不 同 的 参数 ， 这 样 每 个 区 域 都 与 决策 树 上 
的 一 个 叶 节 点 对 应 "” 。 这 意味 着 决策 树 依 然 有 着 上 文 讨论 的 其 他 非 参 数 化 学 习 
方法 的 局 限 : 它们 至 少 需要 与 目标 函数 的 相关 可 变 度 一 样 数目 的 训练 样本 ， 而 且 
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图 3.1 与 同一 物体 相关 的 图 像 集合 构成 一 个 流 形 或 者 一 个 不 相交 的 流 形 集合 。 流 形 是 比 
图 像 的 原始 空间 维度 更 低 的 区 域 。 比 如 数字 4， 通 过 旋转 和 伸缩 变换 ， 我 们 可 以 得 到 相同 类 
下 的 其 他 图 像 ， 即 在 同一 个 流 形 上 。 由 于 流 形 是 局 部 平滑 的 ， 所 以 原则 上 是 可 以 通过 与 流 形 
方向 相 切 的 多 个 线性 片段 来 局 部 近似 。 不 幸 的 是 ， 如 果 一 个 流 形 弯 曲 程度 很 大 的 话 ， 近 似 它 
需要 很 小 的 线性 片段 ， 且 数量 为 流 形 维 数 的 指数 级 。 此 图 片 由 Pascal Vincent 提供 


































































































不 能 泛 化 到 训练 集中 没有 覆盖 到 的 新 可 变性 。 通 过 理论 分 析 '” 可 以 找到 某 些 特 
殊 类 型 的 函数 ， 它 们 需要 输入 维 数 指数 级 的 训练 样本 数量 才能 达到 给 定 的 错误 
率 。 该 分 析 与 此 前 关于 计算 复杂 性 分 析 的 文章 “的 思想 有 异曲同工 之 处 。 分 析 
结果 也 与 之 前 的 实际 结果 "相符 ， 这 些 结果 表明 决策 树 的 泛 化 性 能 随 目标 函 
数 可 变性 的 增加 而 降低 。 

集成 树 (类 似 于 增强 决策 树 "” ， 和 决策 森林 '”"” ) 比 单 棵 树 更 有 效果 。 它 
在 原 有 的 两 层 结构 上 加 上 了 第 三 层 结构 ， 这 让 模型 有 了 区 分 参数 量 的 指数 级 数目 
区 域 的 功能 。 如 图 3. 2 所 示 ， 集 成 树 构成 了 一 个 森林 中 所 有 树 的 输出 的 分 布 
式 表示 (此 概念 将 在 3. 2 节 中 更 深入 讨论 ) 。 集 成 中 的 每 一 棵 树 都 能 由 一 个 代表 
输入 样本 所 属 的 叶 节 点 或 者 区 域 的 离散 符号 表示 。 每 棵 树 上 与 输入 模式 对 应 的 叶 
节点 组 成 了 一 个 描述 能 力 非常 强大 的 元 组 : 它 能 够 表达 很 多 的 可 能 模式 ， 因 为 与 
n 棵 树 对 应 的 叶 节 点 区 域 的 相交 区 域 的 数量 是 n 的 指数 级 。 
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XI X 





E3.2 APRS AEREI) 能 够 区 分 的 区 域 数量 与 参数 (树叶 ) 的 数量 
呈 线 性 关系 ， 集 成 树 〈 左 ) 能 区 分 的 区 域 却 是 树 的 数量 的 指数 级 ， 也 就 是 和 总 的 参数 量 呈 指 
数 关系 〈 至 少 只 要 树 的 数量 没有 超过 输入 的 数量 此 结论 就 成 立 ， 而 这 种 例外 在 这 里 很 难 发 
生 )。 每 一 个 可 区 分 的 区 域 都 对 应 着 每 一 棵 树 上 的 一 个 叶 节 点 (这 里 只 有 3 个 两 路 树 ， 每 棵 
树 对 应 着 两 个 区 域 ,一 共有 7 个 区 域 ) 。 这 与 多 重 聚 类 相同 ， 这 个 例子 中 三 个 聚 类 的 结果 分 别 

应 着 每 棵 树 的 两 个 区 域 。 含 有 三 个 隐 层 单元 的 受 限 玻 尔 兹 曼 机 ( 右 ) 也 属于 多 重 聚 类 ， 每 
一 次 划分 (对 应 一 个 二 值 隐 层 单元 的 ) 会 分 割 开 两 个 线性 可 分 的 区 域 。 因 此 ， 多 重 聚 类 也 是 
对 输入 模式 的 分 布 式 表 示 


在 1.2 节 中 ， 我们 提出 深度 结构 需要 对 系统 中 不 同 层级 间 的 接口 的 表示 种 类 
做 出 选择 ， 我 们 同样 介绍 了 局 部 表示 (在 之 前 的 章节 中 有 过 深入 讨论 ) 、 分 布 式 
表示 以 及 稀 琉 分 布 式 表 示 的 基本 概念 。 分 布 式 表 示 实 际 上 是 机 器 学 习 和 神经 网 络 
BIE FE PA ARG SPS ， 它 有 利于 解决 维 数 灾难 以 及 局 部 泛 化 的 局 限 
性 。 对 于 整数 ;ese1，2，…，N， 一 种 简单 的 局 部 表示 可 以 是 一 个 拥有 单独 的 1 
AN -1 450 AYN 比特 的 向 量 r(i)， 也 就 是 说 第 j 位 的 元 素 x,(i) =1;.;， 我 们 称 
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它 为 i 的 “ 独 热 ” (one - hot) 表示 。 对 同一 个 数字 的 分 布 式 表 示 可 以 是 一 个 
log, N 位 的 向 量 ， 这 种 表示 是 一 种 更 加 紧凑 的 表示 方法 。 对 于 相同 数量 的 可 能 
值 ， 分 布 式 表示 可 能 是 对 局 部 表示 的 一 个 指数 级 压缩 。 稀 玻 (比如 鼓励 大 多 数 
单元 取 值 为 0) 概念 的 引入 考虑 到 了 在 完全 局 部 (MBL) 以 及 非 稀 朴 分 布 式 表 
AN (稠密 ) 之 间 的 一 种 表示 。 人 们 相信 大 脑 皮层 中 的 神经 元 具有 一 种 分 散 式 和 
MARR, TAL, 不 管 什 么 时 间 ， 大 概 只 有 1% ~4% 的 神经 元 得 到 激 
活 ( ”3 。 在 实践 中 ， 我 们 经 常 利 用 取 值 为 连续 值 表示 的 优势 ， 来 增加 它 的 表达 
能 力 。 样 本 表示 的 第 i 个 元 素 代表 输入 与 某 个 原型 或 者 区 域 中 心 的 某 种 距离 ， 如 
同 使 用 3. 1 节 中 讨论 的 高 斯 核 那样 。 举 一 个 连续 取 值 的 局 部 表示 的 例子 ， 在 分 布 
式 表 示 中 ， 其 输入 的 模式 通常 由 一 系列 非 互 斥 的 特征 组 成 ， 这 些 特征 甚至 可 能 是 
统计 独立 的 。 举 例 来 说 ， 聚 类 算法 并 不 会 构造 一 个 分 布 式 表示 ， 因 为 这 些 类 别 之 
间 是 完全 互 斥 的 ， 然 而 独立 成 分 分 析 (ICA) RERIT (PCA) |) WU AE 
构造 出 一 个 分 布 式 表 示 。 

考虑 输入 向 量 x 的 一 种 离散 分 布 式 表 示 r(*) ， 其 中 m(xz) e1,2,…,M,iel, 
2,…,N 。 每 个 r(x) 可 以 视 为 一 个 分 类 器 ， 将 x 分 为 民 个 类 别 中 的 某 一 种 。 就 
像 图 3.2 (M=2) Pras, 每 个 r(x) 将 x 的 空间 划分 为 M 份 ， 但 通过 组 合 这 些 不 
同 的 划分 方式 ， 可 以 使 得 x 的 空间 的 划分 区 域 数量 呈 指 数 级 别 上 升 。 值 得 注意 的 
是 ， 当 表示 某 种 特殊 的 输入 分 布 时 ， 因 为 空间 划分 不 兼容 ， 某 些 组 合 是 不 可 能 出 
现 的 。 比 如 在 语言 模型 中 ， 一 个 单词 的 局 部 表示 可 以 直接 通过 词汇 表 中 的 下 标 对 
其 标识 进行 编码 ， 这 也 相当 于 使 用 一 个 字典 大 小 条 目的 独 热 编码 。 另 一 方面 ， 一 
个 单词 的 分 布 式 表示 能 够 将 句法 特征 (词性 分 布 )、 形 态 特征 (前缀 及 后 级 ) 和 
语义 特征 (代表 的 是 姓名 还 是 动物 等 ) 组 合 为 一 个 向 量 来 表示 该 单词 。 就 像 在 
聚 类 中 ， 我 们 构造 了 很 多 离散 的 类 别 ， 这 些 类 别 潜在 的 组 合 数量 是 巨大 的 。 因 此 
我 们 也 就 得 到 了 多 重 聚 类 ， 这 种 思想 与 重奏 禾 ( Overlapping Clusters) 和 部 分 隶 
RICA (Partial Membership) 的 想法 很 相似 ， 就 是 各 艇 成 员 并 非 完全 互 斥 '%%]。 
聚 类 会 形成 一 种 单一 的 划分 ， 这 通常 会 严重 损失 输入 中 的 一 些 信息 。 但 多 重 聚 类 
提供 了 一 系列 对 输入 空间 的 独立 划分 ， 在 这 种 情况 下 ， 要 想 区 分 出 某 个 输入 则 需 
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要 确定 其 在 各 个 划分 中 的 所 属 位 置 ， 由 这 些 位 置 所 组 成 的 描述 所 包含 的 信息 量 就 
十 分 丰富 了 ， 甚 至 可 能 不 会 有 信息 的 丢失 。 用 来 标识 输入 在 各 个 划分 中 所 处 位 置 
的 符号 元 组 ， 可 以 视 作 一 个 由 原始 输入 空间 转换 而 成 的 新 特征 空间 。 在 新 特征 空 
间 中 ， 原 始 数据 中 的 统计 结构 以 及 变化 因素 都 变 得 更 加 清晰 。 这 与 之 前 章节 中 提 
到 过 的 用 集成 树 对 输入 空间 进行 划分 相对 应 。 这 种 特性 同样 也 是 我 们 希望 深度 结 
构 能 够 捕获 到 的 ， 但 通过 多 个 层级 的 表示 ， 高 层 特征 应 该 更 加 的 抽象 且 可 以 表达 
出 原始 空间 中 一 些 比较 复杂 的 区 域 。 

在 监督 学 习 、 多 层 神经 网 络 " "以 及 无 监督 学 习 领 域 ， 为 了 学 习 隐 层 中 的 
分 布 式 中 间 表 示 ， 玻 尔 效 曼 机 … 被 发 明了 出 来 。 与 上 述 的 语言 模型 的 例子 不 同 ， 
玻 尔 效 曼 机 的 目标 是 为 了 发 现 那些 可 以 组 成 分 布 式 表 示 的 特征 。 在 有 多 个 隐 层 的 
神经 网 络 中 ， 有 着 多 个 特征 表示 ， 每 层 对 应 一 个 。 想 要 学 习 多 层次 的 分 布 式 表示 
涉及 如 何 有 效 训 练 的 问题 ， 我 们 在 之 后 会 进行 详细 讨论 。 


















































4 
具有 深度 结构 的 神经 网 络 


4.1 多 层 神经 网 络 








下 面 列 举 了 多 层 神经 网 络 "中 的 一 些 具 有 代表 性 的 公式 。 如 图 4. 1 所 示 ， 
第 层 利 用 前 一 层 的 输出 pr 计算 得 到 一 个 输出 向 量 加， 最 开始 的 输入 为 x = 


h, 
h" =tanh(b* + W'h'"') (4.1) 
EPA SB bt (偏差 向 量 ) 和 W (AEE), XEM tanh 函数 是 按 位 














OOOOx 

图 4.1 多 层 神 经 网 络 ， 通 常 在 监督 学 习 中 用 于 预测 或 分 类 ， 它 的 每 一 层 都 是 一 个 仿 射 变换 
操作 和 非 线性 变换 的 组 合 。 前 馈 的 计算 是 一 个 确定 的 转换 过 程 ， 从 输入 层 x， 经 过 隐 层 h", 1% 
到 网 络 输出 层 L。 将 得 到 的 输出 与 标签 y 对 比 就 可 以 得 到 需要 被 最 小 化 的 代价 函数 LAE ,y) 
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计算 的 ， 它 可 以 替换 为 sigm(u) =1/(1 +e") = F [tanh (u) +1] 和 其 他 的 饱和 非 


线性 函数 。 最 高 层 的 输出 有 用 来 做 预测 ， 它 和 监督 目标 y 一 起 构成 了 代价 函数 志 
(CRL,y)。 这 个 代价 函数 通常 情况 下 是 关于 bl + Weh 人 1! 的 凸 函数 。 输 出 层 使 用 的 
非 线性 函数 可 能 与 其 他 层 不 同 ， 如 softmax 函数 


eof + wlnl -1 
(4.2) 
J 
stro, wW 是 wei itt, no PIER, 并 且 È hi = 1, softmax 函数 的 输出 机 可 


以 用 作 P(Y =ilx1) 的 估计 值 ， 其 中 了 是 输入 模式 x 对 应 的 类 别 。 在 这 种 情况 下 ， 
我 们 通常 使 用 负 的 条 件 对 数 似 然 函 数 L(h,y) = -logP(Y=ylx) = - logh! 作为 代价 
函数 ， 使 它 在 (x,y) 上 期 望 值 最 小 化 。 


4.2 训练 深度 神经 网 络 的 挑战 








在 阐述 了 为 什么 需要 采用 深度 结构 的 非 局 部 估计 器 之 后 ， 我 们 现在 需要 解决 
如 何 训练 这 个 难题 。 经 验 上 的 证 据 表 明 深度 结构 的 训练 难度 要 大 于 浅 层 结 
ee 

在 2006 年 之 前 ， 机 器 学 习 文 献 对 深度 结构 一 直 没 有 过 多 的 讨论 。 这 是 因为 
当 使 用 标准 的 随机 参数 初始 化 方法 时 ， 总 是 得 到 非常 高 的 训练 和 泛 化 误差 "1。 
值得 注意 的 是 ， 人 们 发 现 深度 卷 积 神经 网 络 "” "3 更 容易 训练 ， 我 们 会 在 
4.5 节 中 进行 讨论 ， 其 中 某 些 原因 还 没有 得 到 充分 的 阐明 。 

许多 未 报道 的 负面 观察 以 及 一 些 实验 数据 "都 表明 ， 在 多 层 有 监督 深度 
神经 网 络 (使 用 随机 初始 化 参数 ) 中 ， 基 于 梯度 的 训练 会 陷入 一 个 明显 的 局 部 
极 小 值 或 平坦 区 域 ?。 并 且 发 现 随 着 深度 的 增加 ， 深 度 结构 更 难以 获得 好 的 泛 化 











”我 们 称 它 明显 的 局 部 极 小 值 。 这 是 由 于 梯度 下 降 的 学 习 轨 迹 会 陷 在 这 里 很 难 出 去 。 当 然 ， 这 不 能 
排除 更 强 的 优化 方法 也 许 能 找到 一 个 远离 目前 解 的 更 优 解 。 
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能 力 。 当 使 用 随机 初始 化 参数 时 ， 深 度 神经 网 络 的 性 能 很 差 。 这 个 结果 甚至 比 那 
些 只 含有 1 个 或 2 个 隐 层 的 神经 网 络 更 差 ”” 。 即 使 +1 层 的 神经 网 络 能 很 容 
易 表达 一 个 及 层 的 神经 网 络 能 表示 的 内 容 ， 而 层 却 不 容易 表达 +1 层 所 容纳 
的 内 容 ， 但 浅 层 网 络 性 能 更 好 的 情况 仍 会 出 现 。 

然而 ,文献 [73] 发 现 ， 如 果 使 用 无 监督 学 习 算 法 对 每 层 进行 预 训练 ， 就 
能 得 到 好 得 多 的 结果 。 这 里 的 具体 做 法 是 从 第 一 层 开始 ( 直接 接受 观察 值 x)， 
一 层 接 一 层 地 做 这 种 预 训练 。 在 最 初 的 实验 中 ， 各 层 使 用 的 是 受 限 玻 尔 兹 曼 机 模 
型 '” 。 在 之 后 的 一 些 实验 中 ， 使 用 多 种 自动 编码 器 的 变 体 对 每 层 进行 预 训练 的 
方法 也 得 到 了 相似 的 结果 "后 。 这 些 文章 大 部 分 都 利用 了 一 个 逐 层 贪 禁 无 监 
督学 习 的 思想 (在 接 下 来 的 章节 中 会 有 详细 讨论 ) 一 一 首先 使 用 无 监督 学 习 算 法 
训练 底层 〈 如 使 用 受 限 玻 尔 效 曼 机 或 者 自动 编码 器 ) ， 得 到 神经 网 络 第 一 层 参 数 的 
初始 值 。 然 后 使 用 第 一 层 的 输出 〈 对 原始 输入 的 一 种 新 的 表示 ) 作为 第 二 层 的 输 
入 ， 同 样 使 用 无 监督 算法 来 得 到 该 层 参数 的 初始 值 。 在 得 到 多 个 层 的 参数 的 初始 值 
后 ， 整 个 神经 网 络 就 能 使 用 监督 学 习 来 进行 精 调 。 相 比 于 随机 初始 化 参数 ， 使 用 无 
监督 预 训 练 所 能 带 来 的 好 处 在 多 个 统计 对 比 中 都 得 到 了 清晰 的 论证 TO 。 

到 底 用 什么 原理 能 够 解释 在 这 些 文献 中 观察 到 的 无 监督 预 训 练 的 使 用 所 春来 
的 性 能 提升 呢 ? 一 条 线索 也 许可 以 帮助 我 们 找到 深度 结构 下 训练 算法 有 效 的 原 
理 。 这 条 线索 来 自 于 非 受 限 玻 尔 兹 曼 机 或 自动 编码 器 的 无 监督 训练 算法 |。 
这 些 算法 与 基于 受 限 玻 尔 效 曼 机 以 及 自动 编码 器 的 训练 算法 的 共同 点 是 : 逐 层 的 
无 监督 准则 。 这 个 准则 通过 在 各 层 采 用 一 个 无 监督 的 训练 信号 来 帮助 该 层 的 参数 
达到 参数 空间 中 的 一 个 更 优 的 区 域 。 在 文献 [202] 中 ， 其 使 用 多 对 (x,x) 来 对 
神经 网 络 进行 训练 ， 这 些 训 练 对 可 能 是 邻居 (或 者 属于 同一 类 别 ) ， 也 可 能 不 
是 。 这 个 模型 假定 对 x 的 及 层 特征 表示 记 为 (x)。 定 义 每 层 的 局 部 训练 准则 如 
下 ; 根据 x 与 x 是 否 是 邻居 样本 (例如 ,输入 空间 的 近邻 )， 将 对 应 的 中 间 层 
表示 (x) 和 h(x) 距 离 变 得 更 近 或 者 更 远 。 这 条 准则 之 前 已 经 在 一 种 使 用 无 监 
督 流 形 学 习 '”| 算 法 的 低 维 嵌入 中 取得 成 功 。 在 这 里 则 是 应 用 在 神经 网 络 的 一 个 
或 多 个 中 间 层 '” 。 按 照 慢 特征 分 析 中 所 提出 的 高 层 抽象 短 时 不 变性 的 想 
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法 ”9 ， 为 中 间 层 提供 了 一 种 无 监督 的 指导 一 一连 续 帧 有 很 大 可 能 会 包含 同 
一 物体 。 
显而易见 ， 至 少 对 于 所 研究 的 任务 类 型 ， 使 用 这 些 技术 能 极 大 的 降低 测试 误 
差 .但 是 为 什么 呢 ? 一 个 基本 的 问题 是 ， 这 种 性 能 提升 到 底 是 因为 更 好 的 优化 还 
是 更 好 的 正则 化 。 正 如 接 下 来 所 讨论 的 ， 答 案 可 能 不 适用 于 通常 的 优化 或 者 正则 
的 定义 。 

在 一 些 实验 中 '"*” ， 即 使 使 用 没有 经 过 无 监督 预 训练 的 深度 神经 网 络 时 ， 
也 可 以 将 训练 的 分 类 误差 降低 到 0， 这 也 就 说 明了 预 训练 更 像 是 起 到 了 正则 化 的 
作用 而 不 是 优化 的 作用 。 文 献 [50] 中 的 实验 同样 给 出 了 相似 的 证 据 一 一 对 于 相 
同 的 训练 误差 ， 使 用 无 监督 预 训练 可 以 系统 地 降低 测试 误差 。 就 像 文献 [50] 中 
讨论 的 ,无 监督 预 训练 可 以 视 为 一 种 正则 化 的 形式 〈 和 先 验 知 识 ) : 无 监督 预 训 
练 将 参数 约束 在 一 个 可 接受 的 参数 空间 区 域 。 这 种 约束 强制 使 得 最 终 解 “ 接 
近 ”2 无 监督 训练 的 解 ， 期 望 这 个 解 能 捕捉 输入 空间 中 的 显著 统计 结构 。 另 一 方 
Wa, SCHR [17, 98] 中 的 实验 显示 ， 当 没有 进行 预 训练 时 ， 模 型 最 终 效 果 差 的 
原因 是 由 于 底层 没有 得 到 很 好 的 训练 ， 当 顶层 的 隐 层 被 限制 (如 强制 其 节点 数 
ERD), 采用 随机 初始 化 参数 的 深度 神经 网 络 在 训练 集 以 及 测试 集 上 的 表现 都 
RÆ, 而 且 远 不 如 经 过 预 训 练 的 神经 网 络 。 在 先前 提 到 过 的 训练 误差 达到 0 的 实 
验 中 ,通常 是 在 隐 层 节点 数量 (一 种 超 参数 ) 被 调整 到 足够 大 的 情况 下 才 出 现 
的 (为 了 最 小 化 在 验证 集 上 的 误差 )。 文 献 [17, 98] 中 提出 的 解释 假说 称 ， 当 
顶层 的 隐藏 层 没 有 任何 约束 时 ， 最 上 面 两 层 〈 相 当 于 一 个 通常 的 含有 一 个 隐藏 
层 的 神经 网 络 ) 仅 用 低层 所 提供 的 输出 ， 就 已 经 足够 拟 合 训练 集 ， 即 使 低层 所 
提供 的 输出 是 非常 差 的 。 相 比 之 下 ， 在 使 用 无 监督 预 训练 的 情况 下 ， 低 层 得 到 了 
优化 ， 即 使 我 们 使 用 尺寸 更 小 的 顶层， 同样 能 获得 更 低 的 训练 误差 以 及 得 到 更 好 
的 泛 化 效果 。 文 献 [50] 中 描述 的 实验 同样 做 出 了 一 致 的 解释 ， 即 当 使 用 随机 初 
始 化 参数 时 ,低层 (接近 输入 层 ) 参数 的 训练 效果 很 差 。 这 些 实验 说 明了 无 监 
督 预 训练 主要 对 深度 结构 的 低层 起 到 了 积极 的 作用 。 

































































” 即 在 梯度 下 降 过 程 中 处 在 相同 的 吸引 域 。 
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我 们 知道 ， 通 党 来 说 一 个 两 层 的 神经 网 络 〈 一 个 隐藏 层 ) 可 以 得 到 较 好 的 
训练 效果 ， 这 个 观点 对 于 深度 神经 网 络 中 的 最 上 面 两 层 同样 适用 。 这 两 层 组 成 了 
一 个 以 底层 输出 为 输入 的 浅 层 神 经 网 络 。 当 使 用 通用 的 训练 准则 时 ， 优 化 深度 神 
经 网 络 的 最 后 一 层 通常 是 一 个 凸 优化 问题 。 优 化 最 后 两 层 时 ， 虽 然 不 是 凸 优化 问 
题 , 但 其 比 优化 一 个 深度 神经 网 络 要 容易 得 多 (实际 上 当 隐 藏 层 节点 的 数量 趋 
近 于 无 限 大 时 ， 一 个 两 层 神 经 网 络 的 训练 也 可 以 视 作 是 优化 问题 3 ) 。 

如 果 在 顶层 有 足够 多 的 隐藏 层 节 点 〈 也 就 是 说 有 足够 的 模型 容量 ) ， 即 使 低 
层 没 有 得 到 很 好 的 训练 ， 训 练 误差 也 可 以 变 得 很 低 (只 要 底层 保留 了 原始 输入 
中 的 大 部 分 信息 ) ， 但 这 会 造成 其 泛 化 能 力 比 浅 层 神经 网 络 更 差 。 当 训练 误差 低 
而 测试 误差 高 时 ， 我 们 通常 称 这 种 现象 为 过 拟 合 。 由 于 无 监督 预 训练 降低 了 测试 
误差 ， 因 此 其 也 就 可 以 视 为 一 种 基于 数据 的 正则 化 。 其 他 一 些 强 有 力 的 证 据 表明 
无 监督 预 训练 的 表现 与 正则 化 相似 : 特别 地 ， 当 模型 没有 足够 的 容量 时 ， 无 
监督 预 训 练 往往 会 降低 其 泛 化 能 力 。 当 训练 集 的 样本 数量 较 少 时 (如 MNIST， 
不 超过 10 万 条 数据 ) ， 虽 然 无 监督 预 训 练 能 改进 测试 误差 ， 但 它 也 使 得 训练 误 
差 变 大 。 

另 一 方面 ， 对 于 更 大 的 训练 集 ， 使 用 更 好 的 低 隐 藏 层 初始 化 时 ， 训 练 误差 以 
及 测试 误差 都 能 得 到 极 大 的 下 降 CULE 4. 2 和 接 下 来 的 讨论 ) 。 这 里 的 初始 化 是 
无 监督 预 训练 。 假 设 在 一 个 充分 训练 的 座 度 神经 网 络 中 ， 其 隐藏 层 对 输入 有 一 个 
不 错 的 表示 。 这 个 表示 将 有 利于 模型 预测 。 当 低层 参数 初始 化 很 差 时 ， 这 些 明确 
而 且 连 续 的 表示 通常 也 能 保留 输入 的 大 部 分 信息 ， 但 是 这 些 表 示 可 能 会 扰乱 输 
入 ， 而 且 不 利于 顶层 学 习 到 一 个 具有 好 的 泛 化 能 力 的 分 类 器 。 

根据 这 个 假设 ， 即 使 把 深度 神经 网 络 的 最 上 面 两 层 换 成 一 个 其 他 的 凸 优化 机 
器 (如 高 斯 过 程 或 者 支持 向 量 机 ) ， 也 可 以 得 到 一 些 性 能 上 的 提升 ， 特 别 是 在 
训练 误差 上 。 但 如 果 低 层 没有 经 过 很 好 的 优化 ， 也 就 是 说 如 果 没 有 发 现 一 个 对 原 
始 输入 的 有 效 表示 ， 其 对 模型 的 泛 化 能 力也 不 会 有 太 大 的 帮助 。 

因此 ， 存 在 这 样 一 个 假说 : 通过 更 好 地 调整 优化 深度 结构 的 低层 ， 无 监督 预 
训练 有 助 于 提升 模型 的 泛 化 能 力 。 虽 然 只 利用 顶层 拟 合 训练 样本 就 能 降低 训练 误 
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3 层 网 络 ，10000000 次 迭代 预 训 练 
10'¢ T 7 = =x = 
E -人 后- 0 unsupervised+10000000 supervised 
-人 2500000 unsupervised+7500000 supervised 
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在 线 分 











































































































5 7 
从 开始 看 到 的 样本 数 x10° 
































图 4.2 在 线 使 用 1000 万 条 手写 数字 图 片 训 练 深度 结构 。 这 里 ， 三 角形 表示 使 用 预 训练 ， 
形 表 示 没 有 使 用 预 训 练 。 在 1000 个 样本 上 在 线 计算 的 分 类 误差 显示 在 图 中 〈 纵 轴 ， 对 数 
刻度 ; 横 轴 ， 从 开始 算 看 到 的 样本 数 ) 。 前 250 万 个 样本 用 作 无 监督 预 训练 (采用 堆 炙 的 降 
噪 自动 编码 器 ) 。 曲 线 尾 部 的 震动 是 由 于 此 时 的 错误 率 已 经 接近 0。 这 使 得 采样 变动 在 对 数 
刻度 下 看 起 来 很 大 。 在 非常 大 的 训练 集 的 情况 下 ， 正 则 化 的 效果 应 该 消失 。 相 比 之 下 ， 我 们 
可 以 看 到 ， 在 没有 预 训练 的 情况 下 ， 训 练 收敛 到 了 一 个 更 差 的 局 部 最 优 ; 无 监督 预 训练 帮助 
神经 网 络 找到 在 线 误 差 的 一 个 更 优 最 小 值 。 实 验 由 Dumitru Erhan 完成 
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差 ， 但 当 所 有 层 都 得 到 合适 的 调整 时 ， 可 以 取得 更 好 的 模型 泛 化 能 力 。 另 一 个 更 
好 的 模型 泛 化 能 力 的 源头 可 能 来 自 于 某 种 形式 的 正则 化 : 通过 无 监督 预 训练 ， 低 
层 被 约束 去 捕捉 到 输入 分 布 中 的 规律 。 对 于 一 组 随机 的 输入 输出 数据 对 (X,Y)， 
这 种 正则 化 效果 与 在 半 监 督学 习 中 使 用 无 标注 数据 的 效果 类 似 ""”。 也 与 采用 最 
大 似 然 方式 优化 生成 模型 P(X,Y) 相 比 优化 判别 式 模型 P(YIX) 所 产生 的 正则 化 
效果 类 似 0* 1 。 如 果 对 于 对 的 函数 P(X) 和 P(YIX) 是 无 关 的 (也 就 是 说 ， 这 
两 个 函数 是 独立 选择 的 ， 学 习 其 中 一 个 函数 不 会 给 我 们 带 来 男 一 个 函数 的 信 
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息 ) ， 那 么 对 于 P(X) 的 无 监督 学 习 对 P(YIX) 的 学 习 没 有 任何 帮助 。 但 是 如 果 它 
们 是 相关 的 ?， 而 且 如 果 在 估计 P(X) 和 P(YIY) 时 使 用 相同 的 参数 9 ， 那 么 每 个 
数据 对 (XX,7) 为 P(YIX) 所 来 带 的 信息 不 仅 可 以 通过 常规 的 手段 获得 ， 而 且 可 以 
通过 P(X) 来 获得 。 举 个 例子 ， 在 深度 置信 网 络 中 ， 两 个 分 布 共享 相同 的 参数 ， 
所 以 用 来 估计 P(YIX) 的 参数 受益 于 一 种 基于 数据 的 正则 化 : 这 些 参 数 在 某 种 程 
度 上 需要 同时 满足 P(YIX) 以 及 P(X). 

现在 让 我 们 回 到 使 用 “优化 ”与 “正则 化 ”来 解释 无 监督 预 训练 优势 的 讨 
论 上 来 。 值 得 注意 的 是 ， 在 这 里 使 用 “优化 ”一 词 时 需要 十 分 小 心 。 如 果 只 是 
遵循 优化 的 一 般 意义 ， 我 们 并 没有 遇 到 优化 的 困难 。 的 确 ， 我 们 可 以 依靠 网 络 的 
最 上 面 两 层 ， 将 整个 网 络 的 训练 误差 降 得 很 低 。 然 而 ， 如 果 考 虑 到 调整 低层 网 络 
(无 论 是 通过 限制 倒数 第 二 层 ， 即 最 上 面 的 隐 层 ， 中 隐 层 节点 的 数量 还 是 限制 最 
上 面 两 层 权 重 的 大 小 ) , 则 涉及 优化 的 难度 问题 。 

一 种 验证 优化 假说 和 正则 化 假说 的 方式 是 考虑 真实 的 在 线 环境 (训练 集中 
的 数据 从 一 个 无 限 的 流 中 得 到 ， 而 且 不 会 重复 ) 。 在 这 种 情况 下 ， 在 线 梯度 下 降 
表现 为 一 种 对 泛 化 误差 的 随机 优化 。 如 果 无 监督 预 训练 的 作用 是 纯粹 的 正则 化 ， 
那么 当 我 们 拥有 一 个 虚拟 的 无 限 训练 集 时 ， 无 论 网 络 有 没有 经 过 无 监督 预 训练 ， 
其 在 线 误差 都 会 收敛 到 一 个 相同 的 等 级 。 

男 一 方面 ， 如 果 这 里 提出 的 优化 解释 假说 是 正确 的 ， 我 们 就 能 预料 到 ， 即 使 
在 在 线 环 境 中 ， 无 监督 预 训练 也 能 带 来 好 处 。 为 了 探究 这 个 问题 ， 我 们 使 用 
“无 限 MNIST” 数 据 集 52; ， 也 就 是 一 个 虚拟 的 类 似 于 MNIST 里 数字 图 片 的 无 限 
数据 流 (通过 随机 转换 、 旋 转 、 缩 放 等 操作 获得 ， 参 见 文 献 【176] ) 。 如 图 4.2 
所 示 ， 当 使 用 预 训练 时 〈 使 用 堆 麦 降 噪 自动 编码 器 ， 见 7.2 节 ) ， 具 有 3 个 隐 层 
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举例 来 说 ，MNIST 中 的 数字 图 片 会 形成 一 些 分 离 得 很 好 的 徐 ， 特 别 是 当 学 习 到 有 效 表 示 时 。 即 使 

这 些 特征 是 用 无 监督 学 习 学 到 的 [22 。 所 以 甚至 在 知道 它们 的 标注 之 前 ， 我 们 也 能 大 概 猜 到 其 决 

策 面 的 位 置 。 

O ”举例 来 说 ， 用 来 估计 POI 的 多 层 神经 网 络 的 低层 ， 使 用 来 自 估计 P(X) 的 深度 置信 网 络 的 参 
数 初始 化 。 
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的 神经 网 络 会 收银 到 一 个 更 低 的 错误 率 。 这 幅 图 展示 了 在 线 错 误 率 的 下 降 过 程 
(每 1000 个 数据 作为 间隔 )。 这 个 错误 率 是 对 泛 化 误差 的 无 偏 蒙 特 卡 罗 估 计 。 前 
250 万 个 样本 用 作 无 监督 预 训练 。 

从 图 中 我 们 可 以 明显 看 出 ， 无 监督 预 训练 会 让 神经 网 络 的 测试 误差 收敛 到 一 
个 更 低 的 值 ， 也 就 是 说 ， 无 监督 预 训练 的 效果 不 止 是 正则 化 ， 而 且 也 找到 了 优化 
准则 的 一 个 更 优 最 小 值 。 尽 管 有 着 这 样 的 表现 ， 我 们 也 不 能 完全 推翻 正则 化 的 假 
说 : 因为 存在 局 部 最 优 解 ， 正 则 化 的 作用 会 一 直 持续 到 无 限 的 训练 数据 。 对 于 这 
个 现象 ,也 有 一 个 相反 的 解释 ， 当 训练 陷入 局 部 最 优 时 ， 即 使 提供 了 更 多 的 数 
据 ， 也 没有 提供 更 多 新 的 信息 。 

为 了 解释 低层 更 加 的 难以 优化 这 一 问题 ， 之 前 的 证 据 显示 ， 反 向 传播 到 低层 
的 梯度 不 足以 将 低层 的 参数 移动 到 一 个 有 着 更 优 的 解 的 区 域 。 根 据 这 个 假说 ， 低 
层 的 参数 在 优化 的 过 程 中 会 陷入 一 个 较 差 的 局 部 最 小 值 或 稳定 值 ( 即 小 的 梯 
度 ) 。 由 于 顶层 的 梯度 训练 往往 进行 得 比较 好 ， 这 就 意味 着 当 梯 度 传 回 低 层 时 ， 
这 些 梯度 含有 的 驱动 底层 参数 变化 的 信息 会 较 少 ， 也 可 以 说 对 于 梯度 下 降 ， 误 差 
函数 越 来 越 病 态 ， 以 至 于 不 能 帮助 低层 逃离 那些 局 部 极 小 值 。 正 如 4.5 节 中 所 论 
述 的 ， 这 些 与 深度 卷 积 神经 网 络 比较 容易 训练 的 现象 是 有 联系 的 ， 那 种 容易 训练 
的 情况 也 许 是 因为 其 每 层 部 存在 特殊 的 本 六 连接 。 另 外 ， 深 度 神 经 网 络 中 利用 
度 的 问题 与 通过 长 序列 训练 循环 神经 网 络 的 困难 同样 有 着 联系 ,文献 【22 81, 
119] 中 对 循环 神经 网 络 有 详细 的 分 析 。 一 个 循环 神经 网 络 可 以 按时 间 展 开 ， 只 
要 我 们 把 神经 元 在 不 同时 间 段 产生 的 输出 看 作 不 同 的 变量 即 可 ， 对 于 一 个 很 长 的 
输入 来 说 ， 展 开 的 循环 神经 网 络 会 成 为 一 个 很 深 的 次 度 结 构 。 在 循环 神经 网 络 
中 ,训练 的 困难 可 以 归结 为 经 过 多 次 非 线性 变换 后 的 梯度 弥散 (或 者 梯度 爆 
人 炸 )。 在 循环 神经 网 络 中 ， 还 有 一 个 额外 的 困难 之 处 在 于 短 时 (展开 图 中 的 更 短 
的 路 径 ) 与 长 时 (展开 图 中 的 更 长 的 路 径 ) 梯度 的 不 匹配 。 









































4.3 深度 结构 的 无 监督 学 习 





由 前 面 的 章节 可 以 看 到 ， 在 至 今 为 止 所 有 成 功 的 深度 结构 的 学 习 算 法 中 ， 
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层 的 无 监督 学 习 是 至 关 重 要 的 部 分 。 如 果 输 出 层 定义 的 优化 准则 的 梯度 在 反 向 回 
传 到 低层 的 时 候 作 用 已 经 不 明显 了 ,那么 我 们 有 理由 相信 在 单 层 级 别 上 定义 一 个 
无 监督 优化 准则 可 以 使 参数 朝 着 合理 的 方向 变化 。 我 们 也 有 理由 期 待 ， 一 个 单 层 
的 学 习 算 法 可 以 捕获 该 层 输 入 的 统计 规律 ， 并 对 其 形成 一 个 抽象 表示 。PCA 或 
ICA 的 标准 形式 〈 其 所 需 的 因素 数 与 信号 数 相同 ) 应 用 在 这 里 并 不 合适 ， 因 为 
它们 不 能 处 理 所 谓 的 “过 完备 情况 ”。 在 过 完备 情况 中 ,输出 数 大 于 它 的 输入 
数 。 这 里 建议 大 家 看 一 下 有 关 ICA 处 理 过 完备 情况 的 扩展 方法 ' ”252 ， 以 及 
与 PCA 和 ICA 有 关 的 算法 ， 例 如 自动 编码 顺和 受 限 玻 尔 效 曼 机 ， 这 两 种 方法 都 
可 以 应 用 到 过 完备 的 情况 。 实 际 上 ， 一 些 在 多 层 系 统 的 情况 下 使 用 这 些 单 层 无 监 
督学 习 算法 进行 的 实验 证 实 了 这 一 想法 ”5 eh, EE (例如 两 
层 的 PCA) 仍然 是 线性 变换 ， 并 不 是 建立 了 更 深 的 结构 。 

有 监督 准则 的 梯度 给 出 的 更 新 方向 可 能 是 不 可 靠 的， 无 监督 学 习 可 以 帮助 减 
少 对 这 种 不 可 靠 更 新 方向 的 依赖 。 除 了 这 个 动机 之 外 ， 我 们 也 引入 在 深度 结构 的 
每 一 层 都 使 用 无 监督 学 习 的 另 一 个 动机 。 那 就 是 : 它 可 以 自然 地 将 问题 分 解 成 与 
不 同 层次 的 抽象 有 关 的 子 问题 。 我 们 知道 无 监督 学 习 算 法 可 以 提取 输入 分 布 中 最 
突显 出 来 的 信息 。 这 种 信息 可 以 用 分 布 式 表示 〈 即 对 输入 中 变化 的 显著 因素 进 
行 编码 的 一 组 特征 ) 来 捕获 。 一 个 单 层 的 无 监督 学 习 算 法 可 以 获取 它 的 主要 信 
息 ,但 是 因为 单 层 容量 的 限制 ， 由 结构 中 第 一 层 提 取 的 特征 只 可 以 看 作 低 层级 的 
特征 。 可 以 想到 ， 如 果 基 于 同样 的 原理 来 学 习 第 二 层 ， 但 是 输入 的 特征 为 第 一 层 
已 经 学 习 到 的 特征 ， 这 样 可 以 获得 稍微 高 一 些 的 层级 特征 。 以 这 样 的 方式 ， 我 们 
可 以 想象 最 终 可 能 会 出 现 能 够 刻画 输入 的 更 高 级 抽象 。 需 要 注意 的 是 ， 这 个 过 程 
中 所 有 的 学 习 都 是 保留 在 每 层 的 局 部 ， 因 此 当 我 们 尝试 优化 一 个 全 局 准则 时 ， 避 
免 了 可 能 会 损害 深度 神经 网 络 梯度 学 习 效 果 的 梯度 弥散 (Gradient Diffusion) 的 问 
题 。 在 接 下 来 的 章节 中 ， 我 们 将 会 讨论 深度 生成 结构 ， 并 正式 引入 深度 置信 网 络 。 


4.4 深度 生成 结构 


在 深度 结构 中 ， 无 监督 学 习 除了 对 有 监督 的 预测 器 的 初始 化 有 帮助 外 ， 还 对 
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学 习 到 数据 的 分 布 并 且 从 该 分 布 中 采样 有 重要 的 意义 。 生 成 模型 通常 可 以 用 图 模 
型 ”1 来 表示 : 图 中 节点 表示 随机 变量 ， 边 表示 了 随机 变量 之 间 的 相关 性 。 所 有 
变量 的 联合 分 布 可 以 用 一 个 节点 和 它 在 图 中 的 邻接 节点 的 乘积 项 表示 。 在 有 向 图 
中 (定义 了 父 节 点 )， 给 定 一 个 节点 的 父 节 点 ， 则 该 节点 条 件 独 立 于 它 的 兄弟 节 
点 。 在 图 模型 中 ， 有 一 些 随 机 变量 是 可 以 被 观测 到 的 ， 另 外 一 些 不 可 以 ( 称 为 
隐 变 量 ) sigmoid 置信 网 络 是 一 个 生成 型 的 多 层 神经 网 络 ， 它 在 2006 年 之 前 就 
已 经 被 提出 并 被 研究 了 ， 人 们 使 用 变 分 近似 法 ”3 训练 它 。 如 图 4.3 所 示 ， 
sigmoid 置信 网 络 中 ， 给 定 上 一 层 神经 元 的 值 ， 则 每 一 层 的 神经 元 (通常 是 二 进 
制 的 随机 变量 ) 是 相互 独立 的 。 这 些 条 件 分 布 的 典型 的 参数 化 公式 与 式 (4.1) 
所 示 的 神经 元 的 激活 函数 类 似 


P(h: =11 h'*') = sigm(b’ + >, Wi hi”) (4.3) 
J 









































图 4.3 ”生成 式 多 层 神 经 网 络 的 例子 ， 这 是 一 个 sigmoid 置信 网 络 ， 由 有 向 图 模型 ( 
个 节点 表示 一 个 随机 变量 ， 有 向 边 表示 变量 之 间 的 直接 依赖 关系 ) 表示 。 观 测 数据 为 x， 


第 大 层 的 隐藏 变量 由 向 量 h" 的 元 素 表示 。 最 高 层 h 可 以 被 因 式 分 解 


















































RP, h RR k AKAWA i 的 二 进 制 激活 值 ，W KREE, AL), H 
x = 如 表示 输入 向 量 。 需 要 注意 的 是 符号 PO) 表示 所 采用 的 模型 的 概率 分 布 ， 








而 PP 则 表示 了 训练 数据 的 分 布 ( 即 训练 集 的 经 验 分 布 ， 或 者 说 生成 训练 样本 的 
概率 分 布 )。 最 底层 生成 了 输入 空间 的 向 量 x， 我 们 希望 这 个 模型 在 训练 数据 上 
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可 以 得 到 较 高 的 概率 。 考 虑 到 网 络 有 很 多 层 ， 这 个 生成 模型 可 以 分 解 如 下 : 





l-1 


P(x,h',-,h®) = PCR) (TIP ini) J Pæ Ih) (4.4) 
式 中 ，P(xz ) 表 示 边 缘分 布 ， 但 是 除了 很 小 的 模型 之 外 ， 这 个 边缘 分 布 在 实践 中 是 
难以 处 理 的 。 在 sigmoid 置信 网 络 中 ， 顶 层 的 先 验 分 布 P(h4) 由 因 式 分 解 得 到 ， 即 
PCR’) = JĀ PE) ,其 中 每 一 个 二 进 制 的 因 式 单元 都 服从 一 个 伯 努 利 分 布 P(h! =1) 。 


深度 置信 网络 与 sigmoid 置信 和 网络 相似 ,但 是 在 最 高 的 两 层 有 不 同 的 参数 化 
方式 ， 如 图 4.4 所 示 。 

















PCI? P )~RBM 




















图 4.4 REEMA, UU aE x, RREN h', h Mho FES MUL 4. 3 所 
示 。 这 个 结构 与 sigmoid 置信 网络 相似 ,除了 最 高 的 两 层 之 外 。 计 算 最 高 两 层 的 联合 分 布 P 
(h,k) 时 ,将 可 以 被 先 验 分 解 的 PCR ) 替换 为 一 个 受 限 玻 尔 兹 曼 机 。 这 是 一 个 混合 的 模型 ， 
由 于 受 限 玻 尔 兹 曼 机 是 一 个 无 向 图 模型 而 不 是 一 个 有 向 图 模型 ， 所 以 它 的 最 高 两 层 是 双向 边 



































p-2 
P(x,h' hê) = POE he) (EPa iw) )P(xih') (4.5) 


=1 


最 高 两 层 的 联合 分 布 称 为 受 限 玻 尔 效 曼 机 (RBM), WE 4.5 所 示 ， 它 的 推导 和 
训练 算法 细节 将 在 5. 3 节 和 5.4 节 分 别 介 绍 。 深 度 置信 网 络 相 对 于 sigmoid 置信 
网 络 的 这 一 微小 变化 产生 了 一 个 不 同 的 学 习 算法 ， 利 用 这 个 概念 可 以 一 次 训练 一 
层 ， 逐 渐 用 后 验 概率 P(h"*1x) 去 建立 一 个 对 原始 输入 更 加 抽象 的 表达 。 受 限 玻 尔 
效 曼 机 的 细节 描述 和 对 深度 结构 的 逐 层 贪心 训练 算法 会 在 后 面 的 第 5 章 和 第 6 章 


介绍 。 
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A455 受 限 玻 尔 兹 曼 机 (RBM) 的 无 向 图 模型 。 它 在 同一 层 的 单元 之 间 没 有 连接 ， 
只 是 在 输入 (或 可 观测 ) AI x, 和 隐藏 单元 及 之 间 有 连接 ， 使 得 条 件 概 率 Ph Ix) 和 

















P(xlh) 可 以 被 因 式 分 解 


4.5 卷 积 神经 网 络 





在 没有 运用 无 监督 学 习 做 预 训练 之 前 ， 训 练 深度 监督 式 神经 网 络 通 常 非常 
难 。 不 过 有 一 个 值得 注意 的 例外 一 一 卷 积 神经 网 络 (CNN) 。 这 里 的 卷 积 操作 的 
灵感 来 自视 觉 系 统 ， 特 别 是 文献 [83] 中 所 提出 的 模型 。 第 一 个 基于 这 种 神经 元 
的 局 部 连接 并 针对 图 像 进行 分 层 组 织 和 转换 的 计算 模型 是 Fukushima 的 Neocogni- 
tron 系统。 他 发 现 ， 相 同 参数 的 神经 元 被 作用 于 前 层 不 同位 置 的 子 区 域 ,会 呈 
现 出 某 种 不 变性 。 之 后 不 久 ，LeCun 的 研究 团队 基于 相同 的 思路 ,设计 并 训练 出 
基于 误差 梯度 的 卷 积 神经 网 络 ， 并 在 许多 模式 识别 任务 上 得 到 了 业界 最 好 的 性 
能 "9 。 现 代 视觉 系统 生理 学 的 认识 与 卷 积 神经 网 络 对 图 像 的 处 理 方式 显示 出 
一 致 性 ””; ， 这 至 少 体现 在 对 物体 的 快速 识别 上 ， 也 就 是 不 考虑 注意 力 和 自 顶 向 
下 反馈 连接 所 造成 的 影响 。 目 前 ， 基 于 卷 积 神经 网 络 的 模式 识别 系统 是 业界 性 能 
最 好 的 系统 之 一 。 比 如 在 手写 体 识别 : "中 它 多 年 来 一 直 是 最 好 的 模型 ” 。 











O 也许 确实 持续 太 多 年 了 。 不 过 好 消息 是 目前 该 领域 正在 发 展 更 精致 复杂 的 系统 ， 并 取得 了 更 好 的 


性 能 008.%] 。 
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相 较 于 我 们 之 前 对 训练 深度 神经 网 络 的 讨论 ， 卷 积 神经 网 络 " 0133.175] 显得 
特别 有 趣 ， 因 为 它们 通常 会 有 5 ~7 层 ， 而 这 种 配置 在 随机 初始 化 的 全 连接 多 层 
神经 网 络 的 情况 下 是 难以 训练 的 。 因 此 我 们 非常 好 奇 ， 卷 积 神经 网 络 结构 中 的 什 
么 特殊 点 带 来 了 它 在 图 像 处 理 等 任务 中 非常 好 的 泛 化 性 能 。 

LeCun 的 卷 积 神经 网 络 系统 包含 卷 积 和 降 采 样 两 种 类 型 的 神经 网 络 层 。 神 经 
网 络 的 每 一 层 都 有 特定 的 “地 貌 结构 "， 具 体 来 说 ， 每 个 神经 元 都 对 应 于 输入 图 
像 中 某 个 固定 的 二 维 位 置 及 其 接收 域 ( 即 输入 图 像 中 会 影响 到 神经 元 响应 的 区 
域 范围 ) 。 在 每 层 的 每 个 位 置 上 有 许多 不 同 的 神经 元 ， 每 个 神经 元 的 输入 权重 与 
一 个 前 层 的 矩形 小 区 域 的 神经 元 相关 。 对 于 相同 一 组 权重 ， 不 同位 置 的 神经 元 对 
应 不 同 的 输入 矩形 小 区 域 。 

一 个 未 经 证 实 的 假想 是 这 些 神经 元 具有 较 小 的 情人 系数 (每 个 神经 元 只 有 
很 少 的 输入 连接 ) ， 从 而 帮助 梯度 传播 到 更 多 的 层 上 ， 而 不 会 发 生 梯度 弥散 导致 
其 失效 。 注 意 ,单独 这 一 点 并 不 能 充分 解释 卷 积 神经 网 络 的 成 功 ， 因 为 随机 稀 踢 
连接 的 深度 神经 网 络 也 并 不 能 取得 较 好 的 结果 。 不 过 ， 扇 和 的 影响 可 能 与 从 多 条 
路 径 进 行 传播 会 让 梯度 逐渐 变 得 分 散 的 想法 相 一 致 ， 也 就 是 说 ， 对 输出 误差 的 奖 
励 或 惩罚 会 分 布 得 非常 广 而 且 各 个 值 非常 小 。 另 一 个 假想 (未必 排 斥 第 一 个 假 
想 ) 是 ， 这 种 多 层级 的 局 部 连接 结构 是 一 种 非常 强 的 先 验 。 这 种 先 验 特 别 适 用 
于 视觉 图 像 等 任务 ， 并 且 将 整个 神经 网 络 的 参数 设 定 在 非常 有 利 的 区 域 上 〈 所 
有 的 未 连接 处 等 效 于 权重 为 0) 。 从 这 些 参数 区 域 开 始 ， 梯 度 优 化 能 够 取得 很 好 
的 效果 。 事 实 上 ， 即 使 在 第 一 层 使 用 随机 权重 ， 卷 积 神经 网 络 仍 能 取得 很 好 的 性 
能 。 具 体 来 说 ， 它 的 结果 要 好 于 完全 训练 的 全 连接 神经 网 络 ， 但 差 于 经 过 完 
全 优化 之 后 的 卷 积 神经 网 络 。 

而 最 近 ， 卷 积 结 构 被 引入 到 了 受 限 玻 尔 兹 曼 机 '“] 和 深度 置信 和 网络 "1 。 文 献 
[111] 中 的 重要 创新 是 设计 出 了 一 个 池 化 或 降 采 样 的 生成 模型 版 本 。 在 报告 的 
实验 中 这 个 方法 效果 不 错 。 在 MNIST 数字 识别 和 Caltech - 101 物体 分 类 基准 上 
取得 了 目前 最 好 的 结果 。 除 此 之 外 ,论文 还 对 每 层 得 到 的 特征 (隐藏 单元 最 可 
能 表示 的 模式 ) 进行 了 可 视 化 ,证实 了 多 层级 组 合 的 概念 。 在 这 个 深度 结构 中 ， 
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层级 从 下 往 上 ， 以 一 种 自然 的 方式 ， 依 次 表达 了 边缘 ， 目 标 局 部 ， 再 到 整体 目 
标 。 而 这 个 概念 正 是 当初 使 用 深度 结构 的 动因 。 


4.6 EE iS air 


接 下 来 讨论 的 一 些 深 度 结构 (深度 置信 网 络 和 堆 释 自动 编码 器 ) 采用 了 一 
种 特定 类 型 的 神经 网 络 作为 其 组 成 部 分 ， 这 就 是 自动 编码 器 ， 也 被 称 为 自 联想 模 
型 ， 或 者 Diabolo PUK?) 。 我 们 将 在 第 5.4. 3 节 中 讨论 ， 自 动 编码 器 和 
受 限 玻 尔 兹 曼 机 也 有 一 定 联系 。 对 比 散 度 算法 使 自动 编码 器 的 训练 近似 于 受 限 玻 
尔 兹 曼 机 的 训练 。 因 为 自动 编码 器 的 训练 看 上 去 比 受 限 玻 尔 兹 曼 机 的 训练 简易 ， 
它们 被 用 来 作为 训练 深度 网 络 的 基本 模块 。 基 本 方法 是 将 神经 网 络 每 一 层 与 一 个 
自动 编码 器 关联 并 分 开 独 立 训练 ?315551 。 

训练 一 个 自动 编码 器 是 为 了 把 输入 x 编码 为 某 种 表示 c(x) ， 以 便于 输入 可 
以 从 这 种 表示 中 进行 重 构 。 因 此 我 们 希望 自动 编码 器 的 输出 是 输入 本 身 。 如 果 存 
在 一 个 线性 隐藏 层 ， 并 且 采 用 均 方 误差 准则 来 训练 这 个 网 络 ， 那 么 个 隐藏 单元 
所 学 习 到 的 ， 就 是 将 输入 向 量 投影 到 由 数据 空间 的 前 个 主 成 分 所 张 成 的 子 空 
间 55 。 如 果 隐 层 是 非 线性 的 ， 那 么 自动 编码 器 便 显得 与 主 成 分 分 析 PCA 不 同 : 
它 将 有 能 力 捕获 住 输入 分 布 的 多 模特 性 (oo 。 更 理想 的 公式 是 把 均 方 误差 准则 扒 
广 到 重 构 的 最 大 似 然 准 则 ， 也 即 负 对 数 似 然 的 最 小 化 准则 。 给 定编 码 c(x) : 

RE = -logP(xle(x)) (4.6) 

如 果 xlc(zx) 是 高 斯 的 ， 那 么 上 式 等 价 于 均 方 误差 。 如 果 输 入 x, 是 一 个 二 元 变量 
或 者 被 认为 是 二 项 分 布 的 ， 那 么 代价 函数 为 

-logP(x | e(x)) =~ BD xiloghi(e(x)) + (1 ~a)log(1 -fi(e(x))) 




















(4.7) 
式 中 , fC + ) 被 称 为 解码 器 ， 并且 f(c(x) ) 是 网 络 产 生 的 重 构 ， 在 这 个 情形 下 应 
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该 是 一 个 值 域 在 (0，1) 之 间 的 向 量 ， 例 如 sigmoid 函数 的 输出 。 我 们 希望 编码 
c(z) 是 一 个 可 以 捕获 数据 中 主要 变化 因素 的 分 布 式 表示 。 因 为 c(x) 被 视 为 x 的 
一 个 有 损 的 压缩 ， 它 不 可 能 对 所 有 的 x 都 是 一 个 很 好 的 压缩 ( 带 有 小 的 信息 损 
失 ) 。 因 此 ， 我 们 不 期 望 它 能 胜任 所 有 输入 的 重 构 ， 而 是 通过 学 习 ， 了 驱动 它 成 为 
对 训练 样本 的 好 的 压缩 方法 ， 并且 有 希望 对 于 其 他 输入 也 做 得 同样 好 (这 正 是 
自动 编码 器 泛 化 的 意义 ) 。 

这 一 方法 的 一 大 值得 慎重 考虑 的 问题 是 .如果 不 加 其 他 限制 ， 一 个 带 有 n 维 
输入 和 至 少 n 维 的 编码 的 自动 编码 器 可 能 只 学 习 到 了 一 个 将 输入 映射 到 自己 的 等 
值 函数 ， 这 样 编码 的 意义 就 不 存在 了 。 令 人 吃惊 的 是 ， 实 验 测试 的 结果 :表明 ， 
实际 上 ， 当 我 们 使 用 随机 梯度 下 降 法 ， 带 有 比 输入 更 多 的 隐藏 单元 的 (我 们 称 
pie Wale irene eet 产生 非常 有 用 的 表示 (“有 用 ”是 指 在 
把 该 表示 作为 一 个 分 类 器 的 输入 时 ， 分 类 误差 会 较 小 ) 。 一 个 简单 的 解释 是 基于 
这 样 的 发 现 : 带 有 提前 终止 的 随机 梯度 下 降 类 似 于 参数 的 & 正则 化 I。 为 了 
得 到 连续 输入 的 完美 重 构 ， 一 个 带 有 非 线 性 隐藏 单元 的 单 隐 层 自动 编码 器 在 第 一 
层 需 要 非常 小 的 权重 (以 此 带 来 隐藏 单元 在 其 线性 区 域 的 非 线 性 变化 特性 ) ， 而 
在 第 二 层 则 需要 非常 大 的 权重 。 对 于 二 值 变 量 的 输入 ， 我 们 也 需要 非常 大 的 权重 
来 完成 重 构 误差 的 最 小 化 。 隐 式 或 显 式 的 正则 化 使 得 产生 带 有 很 大 权重 的 参数 解 
非常 困难 ， 于 是 最 优化 算法 只 会 寻 得 一 个 对 训练 样本 表现 良好 的 编码 ， 而 这 正 是 
我 们 希望 看 到 的 。 这 表明 这 个 表示 能 挖掘 训练 集 上 的 统计 规律 ， 而 不 是 得 到 一 个 
简单 的 恒 等 函 数 。 

还 有 另 一 些 方式 也 可 以 避免 带 有 多 于 输入 的 隐藏 单元 的 自动 编码 器 学 习 得 到 

个 恒 等 函 数 。 并 且 用 这 些 方法 ， 我 们 依旧 可 以 得 到 输入 的 有 用 的 隐 层 表示 。 相 
比较 于 隐 式 或 显 式 的 权重 正则 化 来 约束 编码 ， 一 大 技巧 就 是 在 编码 中 增加 一 些 干 
扰 波动 。 这 正 是 受 限 玻 尔 兹 曼 机 所 做 的 ， 我 们 将 在 之 后 展开 。 另 外 有 一 种 已 被 发 
现 非 常 成 功 的 技巧 ”25022502 ， 是 基于 一 种 对 编码 的 稀 玻 约束 。 有 趣 的 是 ， 
过 这 些 方法 被 提高 的 权重 与 哺乳 动物 视觉 系统 的 主要 区 域 V1 和 V2 之 中 的 神 
ATR ZB" 的 性 质 非常 吻合 。 我 们 将 在 7. 1 节 详 细 讨 论 稀 玻 性 的 问题 。 
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管 稀 玖 性 和 正则 性 减少 了 隐 层 的 表示 能 力 ， 并 以 此 避免 学 习 到 恒 等 函 数 ， 
但 受 限 玻 尔 兹 曼 机 还 是 可 以 有 很 大 的 模型 容量 ， 并 且 依 旧 不 会 学 习 到 恒 等 变 换 。 
这 是 因为 它 不 仅 试图 对 输入 进行 编码 ， 而 且 还 通过 采用 近似 方法 最 大 化 生成 模型 
的 似 然 度 ， 找 到 了 输入 特征 的 统计 结构 。 上 自动 编码 器 中 也 有 一 些 帝 有 受 限 玻 尔 效 
曼 机 性 质 的 变种 ， 它 们 被 称 为 降 噪 自动 编码 器 。 降 噪 自动 编码 器 首先 对 输入 
特征 进行 随机 有 损 的 变换 ， 之 后 训练 模型 使 其 最 小 化 重 构 输入 的 误差 。 可 以 证 
明 ， 这 等 价 于 最 大 化 一 个 生成 模型 的 对 数 似 然 度 的 下 界 。 具 体 细 广 将 在 7.2 节 展 
开 。 














5 
能 量 模型 和 玻 尔 兹 曼 机 


深度 置信 网 络 是 基于 受 限 玻 尔 效 曼 机 的 ， 而 受 限 玻 尔 效 曼 机 是 典型 的 能 量 模 
型 。 在 本 章 我 们 将 介绍 一 些 主要 的 数学 概念 ， 这 将 有 助 于 次 刻 理 解 能 
中 也 包括 著名 的 对 比 散 度 算法 。 


5.1 能 量 模型 和 专家 乘积 系统 


能 量 模型 将 标量 形式 的 能 量 值 与 目标 变量 的 配置 相关 联 "”"%”*] 。 学 习 指 的 
是 修改 这 个 能 量 模 型 函数 ， 使 其 形状 满足 所 期 望 的 性 质 。 比 如 ， 一 个 可 靠 的 理想 
变量 配置 应 该 具有 和 较 低 的 能 量 。 基 于 能 量 的 概率 模型 可 以 使 用 能 量 函 数 来 定义 概 
率 分 布 ， 如 下 所 示 : 











— Energy( x) 


E 
page 


(5.1) 
这 里 能 量 值 取 的 是 对 数 域 。 以 上 公式 是 指数 族 模 型 '” 的 推广 ， 指 数 族 能 量 函 数 
Energy (x) A (0) .中 (xz) 的 形式 。 下 面 我 们 将 会 得 到 ， 给 定 一 层 时 另 一 层 的 
条 件 概率 分 布 (如 在 RBM 中 )， 可 以 采用 指数 族 分 布 中 的 任 一 形式 1。 尽管 所 
有 的 概率 分 布 都 可 以 转换 为 能 量 模型 ， 但 对 许多 特别 的 概率 分 布 而 言 (如 指数 
族 ) ， 推 理 和 学 习 过 程 可 以 借助 分 布 的 特殊 形式 而 得 到 简化 。 当 然 ， 也 有 一 些 学 
PEE ELT AE A SY [in] EO 。 
归 一 化 因子 Z 被 称 为 配 分 函数 ， 它 是 物理 系统 定义 的 推广 ， 其 定义 如 下 : 


a Ye EH (5.2) 
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这 里 如 果 * 是 离散 的 输入 空间 则 进行 求 和 ， 如 果 x 是 连续 的 输入 空间 则 做 积分 。 
即使 当 Z 上 的 求 和 或 求 积 不 存在 时 ， 也 能 定义 能 量 模型 〈 详 见 第 5. 1.2 节 ) 。 
在 专家 乘积 系统 ' "1 公式 中 ， 能 量 函 数 是 各 个 式 子 的 求 和 ， 而 每 一 项 都 与 
一 个 “专家 ”上 广 相 联系 : 
Energy(x) = Di fi(x) a 
即 
P(x) < [][ P(x) < [Jew (5.4) 
因此 每 一 个 专家 P,(x) 可 以 被 认为 是 对 不 合理 的 x MEAR, BACAR 
地 ， 是 一 个 x 上 的 约束 。 如 果 考 虑 下 面 这 个 特例 ， 就 更 容易 理解 了 : f) 只 能 
取 两 个 值 ， 一 个 (UME) 表示 约束 被 满足 ， 另 一 个 (大 值 ) 表示 未 被 满足 ， 这 
时 ，P,(x) 很 明显 只 有 两 个 检测 结果 可 以 输出 。 文 献 [69] 解释 了 “专家 乘积 系 
统 ” 相 对 于 “混合 专家 模型 ” (Mixture of Experts) 的 优势 。 专 家 乘积 系统 使 用 
了 概率 乘积 蔡 代 了 混合 专家 模型 中 的 概率 加 权 求 和 。 为 简化 问题 ， 这 里 假设 每 个 
“专家 ”对 应 于 一 个 约束 条 件 ， 其 取 值 只 能 是 “满足 ”或 者 “破坏 ”。 那 么 在 混 
合 专家 模型 中 ， 每 个 专家 对 应 的 约束 条 件 就 指明 了 数据 所 属于 的 特定 区 域 ， 而 这 
些 区 域 与 其 他 区 域 是 互 斥 的 。 专 家 乘积 系统 则 不 同 ， 其 优势 在 于 ， 一 系列 专家 
f(x) 组 成 了 一 个 分 布 式 表 示 : 与 混合 专家 模型 中 每 个 区 域 一 个 专家 的 空间 划分 
方式 不 同 ， 它 根据 所 有 可 能 的 配置 来 划分 空间 (这 里 每 个 专家 决定 它 的 约束 条 
件 是 否 被 破坏 ) CR [69] 给 出 了 式 (5.4) 中 对 logP(x) 求 参数 梯度 的 方法 ， 
这 个 方法 是 对 比 散 度 算 法 (5.4497) 的 第 一 个 实例 。 


























5.1.1 隐 变 量 的 引入 


在 许多 情况 下 ,x 有 许多 成 分 变量 x;,， 并 且 我 们 没有 同时 观测 到 所 有 这 些 变 
量 ， 或 者 是 我 们 想 引入 一 些 未 观测 变量 来 增加 模型 的 表达 能 力 。 因 此 ,我们 认为 
变量 有 观测 部 分 〈 仍 表示 为 x) ， 以 及 隐藏 部 分 有 

— Energy(x,h) 


e 


P(x,h) = 7 





(5.5) 
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同时 由 于 只 有 x 被 观测 到 ， 所 以 我 们 关心 的 是 边缘 概率 
—Energy(x,h) 
P(x) = De ee) 
在 这 种 情况 下 ， 为 了 将 该 形式 推导 至 类 似 于 式 (5.1) 的 形式 ， 我 们 引入 “自由 
fE” (Free Energy) 〈 受 物理 学 的 启发 ) ， 并 定义 如 下 : 


—FreeEnergy(x) 


P(x) = (5.7) 











式 中 ， ian + ees ， 即 

FreeEnergy(x) = 一 log 之 i as (5.8) 
因此 ， 自 由 能 就 是 一 个 对 数 域 中 进行 边缘 化 的 能 量 。 于 是 数据 的 对 数 似 然 的 梯度 
将 会 是 一 个 有 意思 的 形式 。 我 们 引入 9 来 表示 模型 的 参数 。 从 式 (5.7), RN 
可 以 得 到 


dlogP(x) a OFreeEnergy (x) 5 1 J Perea E) dFreeEnergy(x ) 
00 7 00 00 











x 








dFreeEnergy(x) -、 dFreeEnergy( x ) 
T + re) a (5.9) 


所 以 ， 在 训练 集 上 平均 的 对 数 似 然 梯度 为 
_f dlogP (x) ] _ _ | 0FreeEnergy (x) oFreeEnergy (x) 
£| a0 |- -Es| 00 | a0 | 0 


这 里 在 x WAZA, P 表示 训练 集 的 实际 分 布 ， 5, 表示 在 分 布 P 下 的 期 望 。 
如 果 我 们 能 对 P 进行 采样 ， 并 计算 其 自由 能 ,我们 就 能 应 用 蒙特 卡 罗 算 法 来 得 
到 对 数 似 然 梯度 的 随机 佑 计 值 。 

如 果 能 量 可 以 被 表示 为 一 组 求 和 式 ， 式 中 的 每 一 项 至 多 与 一 个 隐藏 节点 相 
关 ， 如 下 所 示 : 








Energy(x,h) = -B(x) + È, y,(x,h,) (5.11) 
这 也 是 受 限 玻 尔 效 曼 机 情况 下 满足 的 条 件 ， 那 么 自由 能 以 及 似 然 度 的 分 子 部 分 都 
可 以 被 精确 计算 得 到 (即使 这 里 的 求 和 是 对 指数 级 个 式 子 进行 的 ) : 


1 —Freek, p(x) 1 -Energy(x,h) 
P x = Pai ree. nergy x = aN e nergy x, 
aay a Z py 
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= E Ye (x,h;) Cap ales e 








emean (5. 12) 
AP, DY 是 对 h, 所 有 可 能 取 值 的 求 和 (比如 ,在 通常 的 二 值 化 取 值 的 例子 里 


面 ， 可 取 0 和 1 两 个 值 ) 。 请 注意 ， 该 求 和 比 之 这 个 对 及 所 有 值 的 求 和 要 容易 
许多 。 同 时 如 果 严 是 连续 的 ， 所 有 的 求 和 将 被 积分 代 蔡 ， 而 其 他 原理 相同 。 在 
许多 我 们 所 感 兴趣 的 情况 下 ， 对 单个 隐 层 节点 值 的 求 和 或 积分 是 容易 求 得 的 。 对 
于 似 然 度 的 分 子 部 分 〈 也 即 自 由 能 部 分 ) ， 在 上 述 例子 中 可 以 精确 计算 ， 其 中 


Energy(x,h) =-6(x) + $, y(x,h) ， 同 时 


FreeEnergy(x) =- logP(x) - logZ =- B(x) - > log X, ei (513) 
i h; 


5.1.2 条 件 能 量 模型 





虽然 计算 配 分 函数 通常 比较 困难 ,但 是 如 果 我 们 的 最 终 目 标 是 在 给 定 x 情况 
下 对 变量 y 做 决策 ， 而 不 是 考虑 所 有 可 能 的 (x,，y) 配置 ， 那么 仅 考 虑 对 每 个 给 
定 的 x 下 的 y 配置 即 可 。 通 常情 况 是 y 只 能 在 一 个 小 的 有 限 离散 集合 中 取 值 ， 那 么 


P(ylx) = (5. 14) 


pom 
FECAL T, IEE PRCA AR 条 件 对 数 似 然 度 对 参数 的 梯度 值 可 以 被 高 效 的 计算 出 
来 。 这 一 公式 可 以 应 用 于 受 限 玻 尔 效 曼 机 模型 的 一 个 鉴别 型 模型 的 变种 一 一 鉴别 
性 限制 玻 尔 效 曼 机 '"”: 。 这 种 条 件 能 量 模型 也 被 运用 到 一 系列 基于 神经 网 络 的 概 
率 语言 模型 中 ”290.93 。 上述 公式 (更 一 般 的 情况 是 ， 配 分 函数 中 各 项 
的 取 值 可 以 很 容易 求 和 或 者 取 极 大 值 ) 在 早期 已 经 得 到 详尽 的 研 
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FECT NOMS] 。 后 面 工作 中 一 个 重要 且 有 意思 的 性 质 是 ， 这 种 能 量 模型 不 仅 可 
以 针对 对 数 似 然 度 去 做 优化 ， 也 可 以 采用 更 一 般 的 准则 计算 梯度 ， 使 得 正确 响应 
的 能 量 下 降 的 同时 ， 其 他 竞争 性 响应 的 能 量 却 是 增加 的 。 这 类 能 量 函 数 并 不 一 定 
会 产生 概率 模型 ( 因为 这 种 负 的 能 量 函 数 的 指数 并 不 一 定 需 要 可 积 ) ， 但 它们 会 
生成 一 个 给 定 x 下 选择 y 的 函数 ， 而 这 往往 正 是 应 用 程序 的 终极 目标 。 当 然 ， 当 
y 具 有 有 限 取 值 可 能 时 ，P(ylx) 总 是 能 够 计算 ， 因 为 能 量 函 数 只 需要 在 所 有 可 
能 的 y 取 值 下 被 归 一 化 就 可 以 了 。 


5.2 SRE SPL 











DEK LK SL ae EL a Be Et HY BE ee PAT SK, IT SZ BRI AR KS DLE 
其 特殊 形式 ， 它 的 P(hlx) 和 P(xlh) 都 可 求 ， 因 为 它们 是 可 以 分 解 的 。 在 玻 尔 
ASHT 中， 能 量 函 数 通常 是 一 个 二 阶 多 项 式 : 

Energy(x,h) = -b'x -c'h -h'Wx -x'Ux —h'Vh (5.15) 
式 子 里 包含 了 两 类 参数 ， 我 们 将 它们 统称 为 6: WME b, M e 是 一 类 ， 分 别 对 应 
向 量 x 或 有 中 的 某 一 个 元 素 ， 男 一 类 是 权重 W, UM 有 态 ， 每 个 对 应 于 一 对 单元 
节点 〈 表 示 节 点 之 间 的 关系 ) 。 和 矩阵 忆 和 了 通常 是 对 称 和 矩阵 ? ， 且 多 数 情况 下 对 
角 线 为 零 。 采 用 非 零 的 对 角 线 则 会 产生 其 他 变种 ， 比 如 ， 高 斯 分 布 而 非 二 项 式 分 
布 的 情况 |]。 

由 于 上 式 中 有 中 的 元 素 存 在 二 次 交叉 项 ， 如 式 (5.12) 这 样 解析 地 计算 自 
由 能 的 方法 在 这 里 并 不 适用 。 然 而 ，MCMC (蒙特 卡 罗 马 尔 可 夫 链 的 ) 采样 方法 
可 以 用 在 这 里 ， 得 到 一 个 对 梯度 的 随机 估计 器 。 对 数 似 然 度 的 梯度 可 以 由 式 
(5.6) 表示 如 下 : 


























名 “比如 ， 如 果 忆 非 对 称 ， 那 么 将 浪费 额外 的 自由 度 ， 因 为 总 Uixi +xjUix; 可 以 被 写作 

















Vi( Uyt Ua) pa Us + Ui)xj + i Uy + Ui )x;， 也 即 被 表示 为 对 称 和 矩阵 的 形式 。 
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—Energy(x.h —Energy( x ,h) 
Meget alog Ec 
h xh 





dlogP(x) _ 
00 a0 06 
2 1 yw OEnergy (xh) 
一 了 e Energy(x,h) 2 e 00 7 
h 
psi OPnergy(x,h) 
> p Teeth) 之 s 00 d A 
xh 
xh 
=- E Peh ir) Baek) . S pce) ergy By 
h xh 


WEE, dEnergy(x,h)/d0 是 很 容易 计算 的 。 因 此 如 果 我 们 有 采样 P (hl x) 和 
P(x h) 的 方法 ， 我 们 就 能 得 到 针对 对 数 似 然 度 的 无 偏 估计 值 。 文 献 [1，76， 
77] 中 介绍 了 以 下 的 方法 : 

在 “ 正 相 阶 段 ", x 被 指定 为 输入 的 观测 向 量 ， 那 么 我 们 给 定 x， 对 有 采样; 
在 “ 负 相 阶段 ”"， 理 想 情 况 下 x 和 有 都 从 模型 本 身 采 样 。 一 般 情 况 下 只 有 近似 采 
样 可 以 求 得 ， 比 如 采用 迭代 步骤 构建 一 个 MCMC。 文献 [1, 76, 77] 中 介绍 的 
MCMC 采样 方法 基于 吉 布 斯 采样 ”1 。W 个 随机 变量 S$ = (3 ,$,,…,Sv) 的 联合 
吉 布 斯 采样 是 通过 NN 个 形式 为 

S,~P(S,|S_, =s_;) (5.17) 

的 序列 采样 子 步骤 来 完成 的 。 其 中 5 _,; 包 含 了 5 中 除了 S: 之 外 的 N -1 个 其 他 随 
机 变量 。 经 过 这 WN 个 采样 步 又 后 ， 这 条 链 的 一 次 采样 就 完成 了 ， 提 供 了 S 的 一 
个 采样 数据 点 ， 而 当 采 样 次 数 接近 ， 在 一 定 条 件 下 其 分 布 将 收敛 于 P(S) A 
限 状态 马尔 可 夫 链 可 收敛 的 一 个 充分 条 件 是 它 的 非 周期 性 ? 以 及 不 可 约 性 2 。 

我 们 应 该 怎样 在 玻 尔 效 曼 机 中 进行 吉 布 斯 采样 呢 ? s= (xh) 表示 玻 尔 效 曼 
机 中 的 所 有 单元 ，s _, 表 示 除 第 i 个 单元 之 外 的 其 他 所 有 单元 的 值 的 集合 。 玻 尔 兹 












































四” 非 周期 性 : 给 定 周期 上 >1， 没 有 任何 状态 是 有 周期 的 。 这 里 一 个 状态 有 周期 上 是 指 ， 当 且 仅 当 经 








过 t+hk，t+2% 等 时 刻 ， 这 个 状态 能 转移 到 它 本 身 。 

















O 不 可 约 性 ; 一 个 状态 经 过 有 限 次 数 后 可 以 以 非 零 概率 到 达 任 意 状态 。 
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曼 机 的 能 量 函 数 可 以 改写 为 将 所 有 参数 放 在 一 个 向 量 d 和 一 个 对 称 和 矩阵 4 中 ， 

Energy(s) = -d's -s'As (5. 18) 
Sd _, 表 示 除 去 元 素 di ZAM td, A_ RBA TI i TA i FN I 
A, a ,表示 去 除了 第 i 个 元 素 的 4 中 的 第 i 个 行 向 量 (或 列 向 量 )。 使 用 这 样 的 
标记 ,我 们 就 能 得 到 在 玻 尔 兹 曼 机 中 比较 容易 进行 计算 和 采样 的 概率 分 布 
Pls;1s_;)。 比 如 ， 如 果 s, e 10,1} 以 及 4 的 对 角 线 为 空 : 


exp(d, +d’_,s_,+2a'_s_,+s'_A_s_,) 
exp(d, +d’ _,s_,+2a'_s_,+s',A_sS_,) 





P(s,=1ls_,) = 
+exp(d’_js_,+s'_A_js_;) 


__exp(d; +2a'_js_;) | 1 
~ exp(d, +2a'_,s_,) +1 1+exp( -d, -2a'_,s_,) 





(5. 19) 


=sigm(d, +2a’_,s_;) 

在 人 工 神 经 网 络 中 ， 以 上 公式 本 质 上 就 是 用 其 他 神经 元 8 _, 来 计算 某 神 经 元 输出 
的 常见 形式 。 

因为 每 个 x 样本 都 需要 两 组 MCMC 链 (一 组 为 正 相 阶段 ， 一 组 为 负 相 阶 
段 ) ， 计 算 梯度 的 开销 非常 大 ， 导 致 训练 时 间 很 长 。 这 是 本 质 上 为 什么 玻 尔 效 曼 
机 在 20 世纪 80 年 代 被 多 层 神经 网 络 的 反 向 传播 算法 所 取代 的 原因 ， 而 后 者 相应 
成 为 主流 的 学 习 方 法 。 但 是 ， 最 近 有 研究 表明 短 链 有 时 可 以 被 成 功 应 用 ， 这 也 是 
运用 对 比 散 度 方法 来 训练 受 限 玻 尔 效 曼 机 的 主要 原理 ， 将 在 5. 4 节 进 行 讨论 。 值 
得 注意 的 是 负 相 阶段 链 并 不 需要 针对 每 个 样本 x 重新 计算 (因为 这 不 依赖 于 训 
练 数据 ) ， 这 一 现象 在 持续 性 MCMC 估计 器 中 得 到 了 利用 ， 并 将 在 第 


5.4.2 节 进 行 讨 论 。 


5.3 SEM BL 


受 限 玻 尔 兹 曼 机 是 深度 置信 网 络 的 基本 组 成 模块 。 它 与 深度 置信 网络 的 各 个 
层 间 共享 参数 ， 同 时 也 具有 高 效 的 学 习 训练 算法 。 图 4.5 中 给 出 的 是 一 个 受 限 玻 
尔 兹 曼 机 的 无 向 图 模型 ， 在 已 知 x 的 条 件 下 h, 相互 独立 ， 在 已 知 严 的 条 件 时 候 
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x 相互 独立 。 在 受 限 玻 尔 效 曼 机 中 , 式 (5.15) 中 U=0 且 V=0， 即 只 有 隐藏 
层 和 可 视 层 的 层 间 有 连接 ， 而 层 的 内 部 没有 连接 。 这 种 形式 的 模型 最 先 被 称 作 
“KRAI” (Harmonium) "| ， 相 关 的 学 习 算 法 (不 仅 是 玻 尔 兹 曼 机 ) 在 如 下 
文献 [51] 中 有 相似 讨论 。 近 年 来 ,一 些 经 过 实验 验证 的 高 效 学 习 算法 也 被 不 
断 提出 来 ， 可 参见 文献 [31, 70, 200], 

由 于 输入 节点 与 输入 节点 、 隐 藏 节点 与 隐藏 节点 之 间 无 连接 ，RBM 的 能 量 
函数 是 双 线 性 的 ， 即 

Energy(x,h) = -b'x -c'h —h'Wx (5. 20) 

xt (5.11) 和 式 (5.13) 可 以 用 B(x) =b'x M y,(x,h,) = -h; (c + Wax) ER, 
对 输入 的 自由 能 进行 因 式 分 解 。 其 中 ，W, 表示 向 量 下 的 第 i 行 。 因 此， 对 于 输 
入 的 自由 能 ( 即 ， 它 的 非 归 一 化 对 数 域 的 概率 ) 可 以 这 样 有 效 地 计算 : 


FreeEnergy(x) =- b'x - >» log >; ge (5. 21) 
i hi 








由 于 Energy(x, h) WAT h WAWER, EHI (5.12) 中 相同 的 因 式 分 解 
技巧 ， 我 们 很 容易 得 到 条 件 概 率 P(x 1h) 

exp(b'x + c'h + h'Wx) 

> exp(b'x + c'h + h'Wx) 


exp(c,h, + h,W,x) 
I] P l l l l 





P(hix) = 





g II ¥ expl eih, + h,Wx) 
i i 


exp(h;(¢; + Wx) ) 
i Dexp(h.(c, + Wx)) 


= [] P(A, Ix) 
在 大 多 数 情况 下 , he {0,1}, 于是， 给 定 一 个 神经 元 的 输入 ， 我 们 可 以 给 出 一 
般 的 计算 神经 元 输出 的 公式 : 





ci+ Wix 
P(h, = 11x) =T owe = Sigm( Ci + Wx) (5. 22) 
one 
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由 于 在 能 量 函 数 中 x 和 严 的 角色 是 对 等 的 ， 我 们 可 以 用 类 似 的 推导 方法 ， 有 效 地 
计算 和 采样 P(x lh) 





P(x th) = [P(x ih) (5. 23) 
在 二 值 情况 下 ， 
P(x,=11h) =sigm(b, + Wh) (5. 24) 

其 中 W 是 W 的 第 j 列 。 

在 文献 [73] 中 ， 对 于 二 项 式 输入 单元 , 假设 它们 是 二 值 事 件 的 概率 ， 可 
将 它们 用 于 对 输入 图 像 中 的 像素 灰 度 级 进行 编码 。 在 手写 字符 图 像 的 情况 下 ， 这 
种 近似 效果 很 好 ， 但 在 其 他 情况 下 ， 并 没有 很 好 的 效果 。 在 文献 [17] 中 的 实 
验 ， 描 述 了 当 输 入 是 连续 值 时 ， 使 用 高 斯 输入 单元 而 不 是 二 项 式 单 元 的 优势 。 文 
献 [200] 中 给 出 了 一 个 通用 公式 ， 其 中 x 和 严 在 给 定 另 一 个 变量 时 ， 可 以 是 任 
何 指数 族 分 布 (离散 的 和 连续 的 )。 

尽管 受 限 玻 尔 兹 曼 机 可 能 无 法 有 效 地 表示 一 些 能 用 非 受 限 玻 尔 兹 曼 机 紧凑 地 
表示 的 分 布 ， 但 如 果 使 用 足够 的 隐藏 单位 ， 受 限 玻 尔 兹 曼 机 可 以 表示 任何 离散 的 
aye) 。 此 外 ， 可 以 证 明 ， 除 非 受 限 玻 尔 效 曼 机 已 经 完美 的 表达 了 训练 数据 
的 分 布 ， 增 加 隐 层 单元 (并 适当 地 选择 其 权重 和 偏 移 ) 总 是 可 以 提高 对 数 似 
BRE 。 

如 图 3.2 所 示 ， 受 限 玻 尔 效 曼 机 也 可 以 理解 为 构建 多 重 聚 类 (参见 第 3.2 
节 ) 。 每 个 隐藏 单元 创建 输入 空间 两 区 域 的 分 区 (具有 线性 的 分 隔 )。 当 考虑 三 
个 隐藏 单元 的 配置 时 ， 存 在 三 个 半 和 平面 可 能 产生 对 应 的 八 个 交叉 (每 次 从 某 个 
隐藏 单元 进行 线性 分 离 所 得 到 的 两 个 半 平 面 中 选取 一 个 ， 三 个 隐藏 单元 即 有 八 种 
组 合 ) 。 这 八 个 交叉 每 一 个 都 对 应 于 输入 空间 中 的 一 个 区 域 ， 这 个 区 域 具 有 与 它 
们 相同 的 隐藏 配置 〈 即 编码 ) 。 因 此 ， 隐 藏 单 元 的 二 值 化 设置 ， 可 以 标识 输入 空 
间 中 的 一 个 区 域 。 对 于 某 个 区 域 中 的 所 有 x， 给 出 相应 的 hh 配置， P(hlx) 是 最 
大 的 。 需 要 注意 的 是 ， 并 非 隐藏 单元 的 所 有 配置 都 对 应 于 输入 空间 中 的 非 空 区 
域 。 如 图 3. 2 所 示 ， 该 隐藏 单元 的 表示 与 一 组 二 又 树 的 集成 器 的 效果 类 似 。 

我 们 可 以 把 在 受 限 玻 尔 效 曼 机 中 所 有 可 能 的 隐藏 层 配置 上 求 和 看 作 一 种 带 着 
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首 数 级 部 件 的 加 权 概 率 混合 模型 (相对 于 隐藏 单元 和 参数 的 数目 ) : 

P(x) = È P(x lh) PCh) (5. 25) 
式 中 ，P(x1h) 是 与 配置 hh 对 应 的 组 分 的 概率 模型 。 例 如 ， 如 果 P(x1h) 被 选择 为 
斯 (参见 文献 [200，17]) ， 当 严 具 有 个 比特 时 ， 这 是 具有 2" 个 组 分 的 混 
高 斯 模型 。 当 然 ， 这 些 2" 个 组 分 的 参数 不 能 独立 地 调整 ， 因 为 它们 之 间 具 有 
共享 关系 〈 受 限 玻 尔 效 曼 机 的 参数 ) 。 并 且 这 也 是 该 模型 的 优势 ， 因 为 它 可 以 推 
广 到 训练 样本 中 没 出 现 过 的 配置 (输入 空间 的 区 域 ) 中 去 。 我 们 可 以 看 到 ， 与 
组 分 hh 相关 联 的 高 斯 均值 (在 高 斯 情况 下 ) 是 线性 组 合 bp + Wh， 即 每 个 隐藏 单 
元 位 h, 贡献 了 均值 中 的 向 量 W, 
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5.3.1 受 限 玻 尔 兹 曼 机 中 的 吉 布 斯 采样 














从 受 限 臻 尔 效 曼 机 中 采样 是 很 有 用 的 ， 这 是 由 于 : 一 是 它 在 学 习 算法 上 很 有 用 ， 
可 以 获得 对 数 他 然 的 梯度 ， 二 是 ， 分 析 从 模型 生成 的 样本 有 助 于 了 解 模型 是 否 获得 了 
数据 分 布 的 信息 。 由 于 在 深度 置信 网 络 的 最 上 方 的 两 层 是 受 限 玻 尔 效 曼 机 ， 从 受 限 玻 
尔 兹 曼 机 中 采样 使 得 我 们 能 从 深度 置信 网 络 中 采样 ， 这 将 在 6. 1 节 中 详 述 。 

在 全 连接 的 玻 尔 效 曼 机 中 进行 吉 布 斯 采样 是 很 慢 的 ， 因 为 网 络 中 有 多 少 个 节 
点 吉 布 斯 链 就 需要 多 少 步 。 而 受 限 玻 尔 效 曼 机 则 享有 因 式 分 解 带 来 的 两 个 好 处 : 
首先 ， 我 们 不 需要 在 正 相 阶段 采样 ， 因 为 自由 能 ( 和 它 的 梯度 ) 可 以 借助 解析 
的 方法 计算 导出 ; 第 二 ，(x, h) 中 的 变量 集合 可 以 通过 吉 布 斯 链 的 每 个 步骤 中 
的 两 个 子 步骤 采样 得 到 。 首 先 我 们 在 给 定 x 的 条 件 下 采样 万， 之 后 通过 在 给 定 瑟 
的 条 件 下 采样 新 的 x。 在 通常 的 专家 乘积 系统 中 ， 可 以 用 混合 蒙特 卡 罗 方法 来 代 
替 吉 布 斯 采样 '%29 。 这 里 的 混合 蒙特 卡 罗 是 MCMC 的 一 种 ， 在 这 个 方法 中 ， 马 
尔 可 夫 链 的 每 一 步 含有 许多 自由 能 梯度 计算 的 子 步 又 。 因 而 ， 受 限 玻 尔 效 曼 机 结 
构 是 专家 乘积 系统 的 一 个 特例 ， 在 式 (5.21) H, log Se 的 第 i 项 对 应 一 
















































































个 “专家 ”， 即 每 个 隐藏 层 单元 都 对 应 一 个 专家 ， 同 时 每 个 输入 偏 置 也 对 应 一 个 
专家 。 这 样 特别 的 结构 使 得 吉 布 斯 采样 非常 高 效 。 下 面 展 示 了 从 一 个 训练 样本 开 
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始 ( 即 从 PP 中 采样 如 何 进行 到 吉 布 斯 采样 的 第 步 : 





ner 
h, ~P(hlx,) 
i (5. 26) 
hy ~ P(x) 


Xr ~P(xlh,) 
从 训练 样本 开始 这 个 链 是 有 道理 的 ， 因 为 随 着 模型 变 得 更 加 擅长 捕捉 训练 数据 中 


的 结构 ， 模 型 分 布 P 和 训练 分 布 也 变 得 更 相似 (两 者 拥有 类 似 的 统计 量 ) 。 注 


意 ， 如 果 我 们 从 模型 分 布 P 本身 开始 ， 它 将 收敛 在 第 一 步 ， 所 以 从 开始 是 一 
个 好 的 方式 ， 从 而 确保 只 走 必要 的 几 步 就 可 以 收敛 。 


对 比 散 度 是 一 种 用 来 到 近 对 数 似 然 梯度 的 方法 。 我 们 发 现 它 是 训练 受 限 政 尔 
兹 曼 机 时 的 一 种 成 功 的 参数 更 新 法 则 ”| 。 该 算法 的 伪 代 码 参 见 算 法 1， 其 中 针 
对 二 值 的 输入 和 隐藏 单元 的 情况 下 使 用 了 特定 的 条 件 分 布 公式 。 


5.4.1 对 比 散 度 的 算法 讨论 


为 了 构造 这 个 算法 ， 首 先 做 出 的 一 个 近似 是 ， 用 一 个 样本 代替 所 有 可 能 输入 
(st (5.10) 中 的 第 二 项 ) 的 平均 值 。 由 于 经 常 更 新 参数 (例如 ， 采 用 一 个 样本 
的 随机 梯度 下 降 更 新 或 者 使 用 若干 训练 样本 的 小 批量 块 梯度 更 新 ) ， 所 以 在 多 次 
连续 参数 更 新 的 过 程 中 就 已 经 完成 了 某 种 意义 上 取 平 均 的 操作 (这 种 方式 在 文 
献 [105] 中 已 经 显示 了 较 好 的 效果 ) 。 另 外 ， 随 着 连续 的 参数 更 新 ， 在 线 梯度 
更 新 的 过 程 中 可 以 部 分 的 消除 使 用 一 次 或 多 次 的 MCMC 采样 而 不 是 整体 加 和 所 
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带 来 的 额外 系统 方差 。 虽 然 会 因 梯 度 的 这 种 近似 引入 附加 的 方差 ， 但 它 与 在 线 梯 
度 下 降 所 引起 的 方差 相 比 是 差不多 的 (或 者 更 小 ) ， 因 而 ， 引 入 这 样 的 附加 方差 
也 不 会 有 太 大 的 副作用 。 

运行 一 个 步 长 较 长 的 MCMC 链 代价 仍然 是 很 高 的 。 这 里 需要 做 男 外 一 个 近 
似 : 使 用 一 个 简单 的 步 对 比 散 度 算法 (CD-F), CERERA THER 
偏差 : 从 观测 到 的 样本 开始 x, =x HEIT k RI MCMC 采样 z ，x,，…，xi,i。 在 
观测 到 x 后 ，CD -的 更 新 (不 是 对 数 似 然 梯 度 ) ， 可 以 得 到 


A9 en 2) _ ep x) (5.27) 


式 中 ,x =xi,1 是 马尔 可 夫 链 中 经 过 名 步 之 后 ,最 后 一 个 采样 的 得 到 的 样本 。 我 
们 知道 ， 当 kw ， 这 个 偏差 将 会 消失 。 我 们 还 发 现 ， 当 模型 的 分 布 与 经 验 分 布 





非常 接近 时 ， 即 P~P， 当 从 x 开始 启动 马尔 可 夫 链 (x 是 从 P 中 得 到 的 样本 ) 
时 ，MCMC 就 已 经 收敛 了 。 我 们 只 需要 走 一 步 就 可 以 得 到 PP 的 一 个 无 偏 的 采样 
样本 (BEES x 相关 )。 

一 个 令 人 惊讶 的 经 验 结果 是 ， 即 使 =1(CD -1) 也 通常 有 一 个 很 好 的 结果 。 
文献 [31] 给 出 了 CD -k 和 精确 的 对 数 似 然 梯 度 两 种 方法 的 详尽 数值 。 在 这 些 
实验 中 ,虽然 取 k>1 能 得 到 更 精确 的 结果 ， 但 就 算 k=1 也 通常 可 以 获得 非常 好 
的 近似 解 。 在 第 5. 4. 3 节 中 给 出 的 理论 结果 '" 1 ， 有 助 于 我 们 理解 为 什么 取 值 








算法 1 

RBMupdate (x«,, €, W, b, c) 

这 是 受 限 玻 尔 效 曼 机 的 更 新 程序 ， 单 元 的 取 值 是 二 值 的 ， 也 可 以 很 容易 推广 
到 其 他 取 值 的 情况 。 

xi 是 受 限 玻 尔 兹 曼 机 从 训练 数据 的 分 布 中 采样 得 到 的 一 个 样本 。 

e 是 对 比 散 度 算法 中 随机 梯度 下 降 的 学 习 率 。 

W 是 受 限 玻 尔 兹 曼 机 的 权 值 矩阵 ， 它 的 维度 由 隐藏 单元 数量 或 输入 单元 数 


量 决定 。 
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b 是 输入 单元 的 偏 置 。 

c 是 隐藏 单元 的 偏 置 。 

注意 : Olh, =11x,) 是 一 个 向 量 ， 它 的 元 素 是 0 (hy, =11 x) 
for all 隐藏 单元 i do 


。 计算 0(h; =11xi) (对 于 二 值 单元 , sigm(c, + $, Wx)) 


© 从 0(hilxi) 中 采样 he 10,1] 
end for 
for all 可 视 单元 j do 


。 计算 P(x, =11h,) (对 于 二 值 单元 , sigm(b; + 之 Wh;)) 


° 从 P(x =11h, ) 中 采样 x, € 10,1} 
end for 
for all 隐藏 单元 ; do 


。 计算 Olha =11x,) (对 于 二 值 单元 , sigm(c, + >, Wxy)) 


end for 
e Wo—W+e(hxi -0Q(h,=11x,)x;) 
© bb +e(x-x,) 


e cec +e(h, -Q(h, =11x,)) 


很 小 的 时 候 也 可 以 是 有 效 的 : CD -对 应 于 保持 收敛 到 对 数 似 然 梯度 的 前 
个 项 。 
一 种 解释 对 比 散 度 的 方式 是 : 它 在 近似 训练 样本 点 x, 附近 的 对 数 似 然 梯度 。 
采用 * =x, (对 于 CD -8) 的 随机 重 采 样 是 一 个 给 定 x, 的 分 布 ， 其 在 某 种 意义 
上 以 x 为 中 心 ， 并 且 随 着 增加 而 变 得 更 加 扩散 ， 直 至 成 为 模型 的 分 布 。CD -k 
更 新 会 降低 训练 样本 点 x, 的 自由 能 (这 意味 着 如 果 所 有 其 他 的 自由 能 保持 恒定 ， 


它 的 似 然 度 将 增加 ) ， 并 且 在 x, 附近 的 邻 域 中 增加 x 的 自由 能 。 值 得 注意 的 是 ， 
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x 在 x 的 邻 域内 ,但 同时 它 更 可 能 在 模型 的 高 概率 区 域内 (特别 是 更 大 时 )。 
正如 文献 [106] 所 指出 的 ， 对 于 能 量 模 型 ， 训 练 算法 最 需要 的 是 ， 使 观察 到 的 
输入 的 能 量 (自由 能 ， 即 边缘 化 隐藏 变量 ) 更 小 ， 转 移 能 量 到 其 余 区 域 ， 特 别 
是 在 低能 量 的 区 域 。 对 比 散 度 算法 由 两 种 情况 下 统计 数据 的 对 比 度 推动 进行 。 一 
种 来 自 真实 的 训练 样本 ， 男 一 种 来 自 马尔 可 夫 链 的 采样 。 正 如 将 在 下 一 节 进 一 步 
阅 述 的 那样 ， 我 们 可 以 将 无 监督 学 习 问 题 看 成 是 找到 这 样 一 个 决策 表面 : 它 可 以 
将 高 概率 区 域 (其 存在 许多 观测 到 的 训练 样本 ) 与 其 余 区 域 粗略 地 分 开 。 因 此 ， 
当 模型 产生 的 样本 在 决策 面 的 错误 一 侧 时 ， 我 们 会 给 予 一 定 的 惩罚 。 进 一 步 ， 确 
认 决 策 面 应 该 朝 哪 个 方向 移动 的 有 效 方式 ， 是 将 真实 的 训练 样本 与 来 自 模型 采样 
的 样本 进行 比较 。 

















5.4.2 ”对比 散 度 的 替代 算法 


在 受 限 玻 尔 效 曼 机 的 学 习 算 法 的 研究 中 ， 令 人 兴奋 的 最 新 进展 是 将 所 谓 的 持 
续 性 蒙特 卡 罗 马 尔 可 夫 链 应 用 于 负 向 阶段 52] ， 而 这 个 进展 采用 了 之 前 已 经 在 
文献 [135] 中 提出 的 方法 。 具 体 想法 很 简单 :保持 一 个 背景 MCMC fE- rh, 
一 Xp: 来 获得 负 向 阶段 的 样本 〈 应 该 来 自 模 型 ) 。 与 在 CD -k 中 进行 的 
短 链 不 同 ， 这 里 所 做 的 近似 是 : 忽略 沿 着 MCMC 链 移动 时 参数 是 不 断 变化 的 这 
一 事实 ， 即 与 传统 的 玻 尔 效 曼 机 学 习 算 法 不 同 ， 对 于 参数 的 每 个 值 并 不 构造 独立 
的 马尔 可 夫 链 。 可 能 由 于 参数 移动 缓慢 ， 这 种 近似 的 效果 很 好 ， 通 常会 产生 比 
CD -更 高 的 对 数 似 然 度 (实验 针对 和 =1 和 下 =10)。CD -1 PREMIER TH 
较 大 ， 但 均值 偏差 较 小 。 另 外 一 个 有 趣 的 现象 "| 是 : 模型 会 系统 性 地 远离 负 向 
阶段 中 获得 的 样本 ,并 且 这 个 现象 与 马尔 可 夫 链 本 身 相互 作用 ,会 防止 它 在 相同 
区 域 停留 时 间 过 长 ， 从 而 大 大 提高 了 马尔 可 夫 链 的 混合 速率 。 这 是 一 个 非常 理想 
和 之 前 不 可 预见 的 效果 ， 有 助 于 更 快 地 探索 受 限 玻 尔 效 曼 机 的 配置 空间 。 

另外 一 个 对 比 散 度 的 替代 算法 是 评分 匹配 中， 这 是 一 种 用 来 处 理 能 量 易 
计算 但 归 一 化 项 不 易 计算 的 能 量 模 型 的 通用 方法 。 概 率 密度 函数 p(x) =qg(x)/Z 
的 评分 函数 是 y= ( 9logp(x) ) /er ， 显 然 这 个 评分 函数 不 依赖 于 概率 密度 函数 中 
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的 归 一 化 项 ， 也 即 : yy = (ologg (x) ) /oz。 基 本 的 算法 思想 是 使 模型 分 布 的 评分 
函数 和 经 验 分 布 的 评分 函数 相 匹配 。 两 评分 函数 差 值 的 二 次 方 范 数 的 加 权 平 均值 
(在 经 验 密度 下 ) 可 以 写成 模型 的 评分 函数 的 二 次 方 项 和 二 阶 导数 ( 9"logq (x))/ 
ax? 的 形式 。 评 分 函数 匹配 已 经 被 证 明 是 局 部 一 致 的 ” ， 即 如 果 模 型 族 的 假设 
与 数据 生成 过 程 一 致 的 话 ， 它 将 会 收敛 。 这 种 方法 已 经 被 用 于 图 像 和 音频 数 
EOP 的 无 监督 模型 之 中 。 








5.4.3 吉 布 斯 链 模型 中 的 对 数 似 然 梯度 截断 





本 小 节 我 们 将 从 不 同 的 角度 考察 对 比 散 度 算法 ， 对 其 做 适当 推广 ， 以 及 探索 
它 和 重 构 误差 的 联系 。 重 构 误 差 经 常用 来 衡量 这 一 算法 的 性 能 ， 也 经 常用 来 优化 
训练 自动 编码 器 (ILA (4.6) ) 。 我 们 的 工作 基于 下 面 两 个 启发 : 第 一 个 启发 是 
(在 8.1 节 有 详 述 ) ， 吉 布 斯 链 可 以 看 作 无 限 的 有 向 图 模型 (这 里 利用 了 对 数 似 
然 梯度 的 展开 式 ) ; 二 是 ， 吉 布 斯 链 的 收敛 性 保证 了 对 比 散 度 方法 是 合理 的 ( 因 
为 当 吉 布 斯 链 的 采样 x 来 自 于 模型 的 概率 分 布 时 , 式 (5.27) 的 期 望 与 式 
(5.9) 相同 )。 尤 其 让 我 们 感 兴趣 需要 搞 清楚 的 是 : 与 真实 的 对 数 似 然 梯度 相 
比 ， 对 比 散 度 方法 得 到 的 梯度 有 多 少 偏差 。 

考虑 一 个 收敛 的 马尔 可 夫 链 x hx, 一 …， 它 的 转移 矩阵 由 一 系列 的 条 
件 概率 分 布 PC lz ) 和 P(x, 1 ) 所 确定 ， 初 始 的 wx 采样 于 训练 数据 的 经 验 概 
率 分 布 。 接 下 来 的 定理 (出 自 文献 [12]) 将 告诉 我 们 ， 当 t 宇 1 时， 对 数 似 然 
梯度 可 以 如 何 展开 。 

定理 $.1 考虑 一 个 收敛 的 吉 布 斯 链 hn, CIERRE x 是 
数据 集中 的 一 个 样本 点 。 我 们 可 以 把 对 数 似 然 梯度 展开 为 
























































ðlogP (x, ) ðFreeEnergy( x; ) dF reeEnergy (x, ) 
= 一 + E| + 
00 00 00 
dlogP 
tr (5. 28) 


SUP AY Sia SURE Bt HY ECF I CB 
因为 式 中 的 最 后 一 项 将 随 着 t 的 增 大 而 变 得 足够 小 ， 所 以 在 马尔 可 夫 链 的 第 
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上 步 做 截断 的 如 下 近似 是 合理 的 : 


dlogP(x,) _ ðFreeEnergy (x, ) : dF reeEnergy(x,,,) 
00 00 00 


只 要 我 们 把 其 中 期 望 用 一 次 采样 x =x, 代替， 就 正 是 前 面 的 CD -k IR ( 式 
(5.27) ) 。 这 告诉 我 们 CD -天 算 法 的 绝对 误差 是 EL ( dlogP(x%,,,)/00], Wat HE 
论 和 实践 的 双重 检验 ， 我 们 可 以 知道 CD -k SHE CD - (下 -1) 有 更 快 更 好 的 收敛 
性 ， 因 为 它 的 绝对 误差 会 更 小 (尽管 这 要 付出 更 多 的 计算 代价 ,也许 不 是 很 值 
得 ) 。 尽 管 CD -的 偏差 在 上 比较 小 的 时 候 确 实 会 很 大 ， 但 是 经 验 说 明 ，CD -k 
算法 仍然 可 以 在 大 部 分 情况 下 与 对 数 似 然 梯度 算法 在 相同 的 象限 空间 中 更 新 模型 
参数 。 就 算 k=1， 我 们 依然 可 以 得 到 好 结果 。 直 觉 上 我 们 可 以 这 样 理解 这 一 现 
象 : 当 输入 的 样本 x, 被 用 来 初始 化 马尔 可 夫 链 ， 即 使 是 马尔 可 夫 链 里 的 第 一 步 
(到 x,) 也 在 从 x 出 发 走向 一 个 正确 的 方向 ， 也 就 是 说 ， 大 致 沿 着 从 wx 的 能 量 
降低 的 方向 走 。 因 为 梯度 取决 于 从 x, 到 x 的 改变 ， 我 们 一 般 会 得 到 一 个 正确 的 
梯度 方向 。 

所 以 CD -1 算法 意味 着 在 两 次 采样 后 截断 的 吉 布 斯 链 (一 次 采样 通过 
hh | xi ， 一 次 采样 通过 x, l h,)。 那 如 果 我 们 在 第 一 次 采样 (thE h l x) 后 
就 截断 呢 ? 我 们 可 以 用 如 下 的 对 数 似 然 梯 度 的 展开 式 '""| 来 分 析 : 


dlogP(«,) _ = sgj e 
900 a0 00 





e| 























(5.29) 





如 果 我 们 对 第 一 个 期 望 做 平均 场 近似 ， 把 及 BRA h Elh 1x ] ， 而 不 是 对 所 
有 根据 P(h, lx ) 生成 的 如 做 平均 ， 这 样 就 有 


dlogP(«,|h,) 1 ologP(xi lh, ) 
e| a0 加 a0 (3.00) 








如 果 我 们 就 像 在 CD 算法 中 一 样 ， 忽 略 式 (5.29) 中 的 第 二 个 期 望 (对 估算 对 数 
似 然 梯度 造成 一 个 额外 的 偏差 )， 把 式 (5.30) 的 右边 直接 当 作 更 新 的 方向 ， 即 
负 的 重 构 误差 的 梯度 





—logP(xilh,) 
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常常 用 来 训练 自动 编码 器 ( 见 式 (4.6), e(x) =E[hl«])°. 

至 此 我 们 发 现 了 截断 的 吉 布 斯 链 与 重 构 误差 、 对 比 散 度 算法 之 间 的 联 
系 。 如 果 对 吉 布 斯 链 做 一 阶 近 似 (一 次 采样 )， 就 与 重 构 误差 基本 相似 ( 桥 
梁 就 是 一 个 有 偏 的 平均 场 估计 ); 如 果 再 做 稍微 好 一 点 的 近似 (二 次 采样 )， 
就 是 CD -1 算法 (通过 一 个 采样 来 近似 期 望 ); 如 果 用 更 多 项 来 做 近似 ， 就 
是 CD -算法 (仍然 使 用 采样 来 近似 期 望 )。 请 注意 ， 重 构 误 差 可 以 被 确定 
地 计算 并 且 与 对 数 似 然 度 相关 ， 这 就 是 为 什么 在 用 对 比 散 度 算法 训练 RBM 
时 ， 我 们 用 它 来 跟踪 进度 。 


























5.4.4 把 模型 生成 的 样本 看 作 负 例 


在 这 一 小 节 ， 我 们 认为 能 量 模型 的 训练 可 以 通过 解决 一 系列 分 类 问题 来 实 
现 。 在 这 些 分 类 问题 中 ， 我 们 竭力 区 别 真 实 的 训练 数据 样本 和 模型 生成 的 样本 。 
在 玻 尔 兹 曼 机 学 习 算 法 和 对 比 散 度 算法 中 ， 一 个 重要 的 元 素 是 从 模型 中 采样 的 能 
力 。 这 里 的 采样 可 能 是 近似 的 。 文 献 [201] 提出 了 一 种 漂亮 的 方法 ， 来 理解 这 
些 样 本 在 改善 对 数 似 然 度 中 的 价值 。 我 们 先 不 那么 正式 地 解释 一 下 这 个 想法 ， 青 
将 它 形式 化 ， 并 通过 将 训练 数据 样本 与 模型 生成 样本 进行 分 类 的 准则 来 训练 一 个 
生成 模型 的 方法 进行 验证 。 

最 大 似 然 算法 希望 在 训练 数据 集 上 有 比较 高 的 似 然 度 ， 而 在 其 他 数据 上 表现 
比较 低 。 如 果 我 们 已 经 有 一 个 模型 并 且 和 希望 去 提升 这 个 模型 的 似 然 度 ， 那 么 将 模 
型 的 高 概率 区 域 和 训练 集 样本 所 在 的 区 域 进行 比较 会 告诉 我 们 应 该 怎样 更 新 模 
型 。 如 果 我 们 可 以 通过 一 个 决策 面 近似 地 分 离 训 练 样本 和 模型 样本 ， 那 么 我 们 可 
以 减 小 决策 面 一 侧 的 能 量 函 数 ( 那 一 侧 有 更 多 的 训练 样本 ) 并 且 增 加 男 一 边 的 
AE HE PRI (有 更 多 的 生成 样本 ) ， 以 此 来 提升 模型 的 似 然 度 。 从 数学 角度 看 ， 考 
虑 如 式 (5. 10) 所 示 的 对 FreeEnergy (x) 的 参数 〈 或 者 在 不 引入 隐藏 变量 的 时 候 ， 

















O MAR (5. 30) 的 平均 场 近似 计算 梯度 时 ， 是 否 应 考虑 加 是 否 依赖 于 9， 还 存在 一 定 的 争论 ， 
但 是 很 显然 它 与 自动 编码 器 有 联系 。 
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对 Energy(x) 的 参数 ) 的 对 数 似 然 函 数 的 梯度 。 假 定 已 有 一 个 高 度 正则 化 的 二 
ge ow oe eat aes 
样本 ， 而 且 产 生 一 个 非常 接近 的 概率 g(x) = P(y = 11z) (希望 正确 的 一 边 多 


一 些 )。 令 g(x) =sigm( -a(x))， 在 这 里 ，-a(x) 是 一 个 判别 函数 ,或 者 是 一 
个 未 归 一 化 的 条 件 对 数 概率 ， 就 像 自由 能 。 记 (z,y) 的 经 验 分 布 为 P，P, 为 当 y 
=i 时 的 x 的 分 布 。 假 疫 P(y =1) =P(y =0) =1/2, ABBA VS, Ejs[f(x,y)] = 





[f(x,1) ]P(y=1) +£5,[f(x,0) ]P(y =0) = 可 (有 [f(x,1)] +Es Lf(x,0)])。 


利用 这 个 结论 ， 概 率 分 类 器 的 平均 条 件 对 数 似 然 梯 度 可 以 写 为 
OlogP(yIlx)] _,, fo(ylogg(x) + (1 -7)log(1 -g(x))) 
| a0 | =5;| a0 | 





-He (a(x) -1 1) 242), E>, [4 (x) St) } (5.31) 


~1(-2 ps, [942] +4 ;, [2 ) 
其 中 最 后 一 条 等 式 是 因为 这 个 分 类 器 高 度 正则 化 ， 当 输出 的 权重 很 小 的 时 候 ， 
a(x) 接 近 0 且 g(x) ~1/2, PRA -g(x))~~q(x)。 当 我 们 把 服从 P, 的 训练 样 





本 视 作 正 例 (y=1) (也 就 是 说 ，P, =P)， 把 模型 生成 的 样本 看 作 负 例 (y =0， 
也 就 是 说 Py = P) ， 这 个 对 数 似 然 梯 度 的 表达 式 也 就 是 我 们 通过 能 量 模 型 得 到 的 
自由 能 的 形式 的 表达 式 (R (5.10) ) 。 它 的 梯度 也 类 似 于 我 们 在 对 比 散 度 算法 
中 得 到 的 那个 估计 (EÈ 〈5.27) ) 。 一 个 理解 这 个 结论 的 方法 是 ， 如 果 我 们 能 够 
提升 分 类 器 分 离 训 练 样本 和 生成 样本 的 性 能 ， 我 们 可 以 通过 增加 在 训练 样本 上 的 
概率 来 提升 模型 的 对 数 似 然 度 。 实 际 中 ， 这 可 以 用 一 个 分 类 器 做 到 。 这 里 ， 分 类 
器 的 判别 函数 定义 为 一 个 生成 模型 的 自由 能 (取决 于 乘 性 因子 ) 并 且 假设 我 们 
能 从 模型 中 (近似 地 ) 采样 。 这 个 想法 的 一 个 变种 已 被 用 来 验证 一 种 类 似 助 扒 
算法 (Boosting) 的 增 量 算法 ， 这 种 算法 的 目的 是 为 专家 乘积 系统 增加 专家 [1 。 
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深层 结构 的 逐 层 贪心 训练 


6.1 深度 置信 网 络 的 逐 层 训练 





一 个 有 4 层 深 度 置 信 网 络 !31 的 可 观测 向 量 x 和 4 个 隐 层 的 IB AE 
如 下 : 


P(x, h!, =, ht) = (FI Po p P, h£) (6.1) 
k=0 


这 里 x = 有, PCN | nh) 是 受 限 玻 尔 效 曼 机 中 给 定 隐藏 层 时 的 可 视 层 的 条 件 分 
布 ， 深 度 置 信 网 络 中 第 左 层 与 这 个 受 限 玻 尔 效 曼 机 相对 应 。P(H , ht) EER 
度 置信 网 络 中 顶层 的 受 限 玻 尔 效 曼 机 的 联合 概率 分 布 ， 如 图 6. 1 所 示 。 

条 件 概率 分 布 Ph |h) 和 顶层 〈 一 个 受 限 玻 尔 兹 曼 机 ) 的 联合 概率 
I Phe", ho) 定义 了 深度 置信 网 络 这 样 一 个 生成 模型 。 接 下 来 ， 引入 0 
来 表达 模型 的 精确 的 或 近似 的 后 验 概率 ，0 会 在 推理 和 训练 中 使 用 。 除 了 项 
层 以 外 ， 其 他 层 的 后 验 概率 Q 都 是 近似 结果 。 由 于 (ht, ho!) 形成 一 个 受 
RERA BAL, WUE QC he ne!) 等 于 真实 的 P(ht |h!) , 这 里 精确 的 
推理 是 可 行 的 。 

当 使 用 算法 2 中 的 伪 代 码 所 描述 的 方法 逐 层 贪心 来 训练 深度 置信 网 络 时 ， 
一 层 都 需要 按照 受 限 玻 尔 效 曼 机 的 方法 初始 化 。 我 们 记 OC, hho!) 为 第 个 按 
照 如 此 方法 训练 的 受 限 政 尔 兹 曼 机 , PCO) 代表 基于 深度 
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图 6.1 深度 置信 和 网络 是 一 个 生成 模型 (从 P 分 布 中 生成 ， 对 应 图 中 实 线 ) 且 被 
用 于 提取 输入 数据 的 高 层 抽象 表示 (从 @ 分 布 中 提取 ， 对 应 图 中 虚线 ) 。 其 顶层 的 
受 限 玻 尔 效 曼 机 包含 尼 Ah? 两 层 (为 了 得 到 其 联合 分 布 ) 。 底 层 组 成 了 一 个 有 向 


















































图 模型 (sigmoid 置信 网 络 Wh'ax) ， 同 时 倒数 第 二 层 有 er 的 先 验 由 顶层 的 受 限 玻 














FSP, QCh hE EPC h 的 近似 ， 它 更 易于 计算 


算法 2 


TrainUnsupervisedDBN (P, c, £, W, b, c, mean _ field _ compu- 





tation) 
用 非 监督 的 逐 层 贪心 方法 训练 一 个 深度 置信 网 络 ， 其 每 一 层 用 受 限 玻 尔 效 曼 机 
的 训练 方法 进行 训练 (例如 采用 对 比 散 度 算法 ) 。 

P 是 网 络 的 输入 的 训练 数据 的 概率 分 布 。 

e 是 受 限 玻 尔 效 曼 机 的 学 习 率 。 

/是 训练 的 层 数 。 

Wr* 是 第 大 层 的 权重 矩阵 ， 其 中 必 可 取 1 到 / 间 的 数值 。 

bY 是 第 层 的 受 限 玻 尔 兹 曼 机 可 见 单 元 的 偏 置 向 量 ， 其 中 可 取 1 到 4 间 的 数值 。 

以 是 大 层 的 受 限 玻 尔 效 曼 机 隐 层 单元 的 偏 置 向 量 ， 其 中 上 可 取 1 到 4 间 的 
数值 。 
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mean field computation 是 一 个 布尔 值 ， 当 且 仅 当 其 上 各 层 的 训练 
数据 是 由 平均 场 方法 近似 得 到 而 非 随机 采样 得 到 时 ， 其 为 真 。 
for k =1 to do 
e 初始 化 Wi=0, b' =0, c' =0 
while 尚未 满足 终止 条 件 do 
。 从 P 中 采样 得 到 =x 
fori =1 to k-1 do 





if mean field computation then 
。 对 所 有 h 中 的 元 素 j, & Chi =1 he) hi 
else 
。 对 所 有 hi 中 的 元 素 j， 从 Qhi lhi!) PRESSI hi 
end if 
end for 
。 受 限 玻 尔 兹 曼 机 更 新 (ht-1，e， WE, b, ct) | 至 此 , 提供 了 后 续 使 用 
的 QC HE | Ak) | 





end while 


end for 


置信 网 络 的 概率 。 因 为 计算 QCLh*|h*-!1) ( 它 是 可 因 式 分 解 的 ) 和 从 中 采样 都 很 
容易 实现 ， 而 P(h*|h*-1) (由 于 它 不 可 分 解 ) 却 很 难 实现 ， 所 以 我 们 用 QCh 
1-1) 来 近似 P(r-!)。 这 些 QCh" hi!) 同样 可 以 用 来 建立 对 输入 向 量 x 
的 表示 。 为 了 得 到 对 所 有 层 的 一 个 近似 后 验 或 表示 ， 我 们 进行 下 面 的 操作 。 首 
先 从 第 一 层 受 限 玻 尔 兹 曼 机 中 采样 得 到 hh! ~ QO |x)， 或 者 通过 平均 场 方法 ， 
H h! = EU! |x]j] 而 不 是 从 有 1 中 采样 ,这样 得 到 的 期 望 值 是 基于 受 限 玻 尔 兹 曼 
机 的 概率 分 布 0( 肌 |x) 的 。 这 个 向 量 在 隐 层 单元 是 通常 的 二 项 式 形式 ( 即 
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h! =sigm(b! + Wiha) ) 时 ， 就 恰好 是 隐 层 单元 的 输出 概率 向 量 。 在 第 一 层 采取 
不 论 是 平均 场 得 到 的 向 量 如 还 是 采样 得 到 的 如， 都 作为 第 二 层 受 限 玻 尔 兹 曼 
机 的 输入 ， 然 后 计算 如 或 者 采样 得 到 采样 刀 ， 重 复 此 步骤 直到 最 后 一 层 。 一 
且 一 个 深度 置信 网 络 按照 算法 2 被 训练 ， 每 一 层 的 参数 W 〈 受 限 玻 尔 效 曼 机 
的 权重 ) 和 ci ( 受 限 玻 尔 兹 曼 机 的 隐 层 的 偏 置 ) 可 被 用 来 初始 化 一 个 深度 多 
层 神经 网 络 。 这 些 参数 可 以 在 之 后 用 其 他 的 准则 函数 (一般 为 一 个 监督 学 习 
的 准则 ) 来 进行 精 调 。 

一 个 基于 x 的 深度 置信 网 络 生成 模型 的 采样 可 按照 如 下 方法 得 到 

L 从 项 部 的 受 限 玻 尔 兹 曼 机 中 采样 出 一 个 可 见 的 向 量 ix-!:。 可 以 采取 如 章 
节 5.3.1 中 提 到 的 方法 ， 通 过 对 这 个 受 限 玻 尔 效 曼 机 用 吉 布 斯 链 的 方法 对 ht ~ 
PC 和 7 ~ PCW! 1) 进行 轮流 采样 来 近似 得 到 。 通 过 前 述 的 Q 后 
验 分 布 ， 从 一 个 训练 集合 的 样本 得 到 有-:! 的 表示 并 以 此 初始 化 吉 布 斯 链 可 以 使 
得 吉 布 斯 采样 的 步 数 变 得 更 少 。 

2. 对 上 取 从 Ll-1 到 1 的 值 ， 在 给 定 pt 的 情况 下 ， 基 于 隐藏 层 到 可 见 层 的 条 
件 概 率 分 布 PCE! |h*) 进 行 采样 ， 得 到 no! 

3. x = 有 0 即 为 深度 置信 和 网络 的 样本 。 


6.2 堆 合 自动 编码 费 训 练 


自动 编码 器 也 可 以 作为 初始 化 多 层 深 度 神 经 网 络 的 一 个 基本 模 
HD79 ,153,195] 。 它 的 训练 过 程 与 深度 置信 网 络 的 训练 过 程 很 类 似 : 

L 将 第 一 层 训练 为 一 个 自动 编码 器 ， 去 最 小 化 原始 输入 的 重 构 误 差 。 这 是 
完全 无 监督 的 过 程 。 

2. 自动 编码 右 隐 层 单 元 的 输出 即 生 成 的 编码 )， 现 在 被 用 作为 外 一 层 的 输 
入 ， 而 这 一 层 也 被 继续 训练 成 一 个 自动 编码 器 。 同 样 ， 我 们 只 需要 没有 标注 的 
样本 。 
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3. 迭代 2 中 的 步骤 来 初始 化 所 需要 的 其 余 层 。 

4. 将 最 后 一 层 的 输出 作为 一 个 有 监督 层 的 输入 ， 这 个 有 监督 层 可 以 随机 初 
始 化 ， 也 可 以 在 固定 网 络 其 他 层 的 情况 下 ， 用 有 监督 训练 来 初始 化 。 

5. 利用 有 监督 的 准则 去 微调 这 个 深层 结构 的 所 有 参数 。 另 一 种 方案 是 ， 将 
所 有 自动 编码 器 展开 成 一 个 深层 的 自动 编码 器 并 且 微 调 深层 网 络 全 局 的 重 构 错 
误 ， 一 如 文献 [75] 中 一 样 。 

我 们 希望 在 逐 层 贪心 的 无 监督 预 训练 过 程 中 ， 将 所 有 层 的 参数 调整 到 一 个 用 
局 部 梯度 能 够 到 达 的 好 2 的 局 部 最 优 的 参数 空间 中 去 。 这 也 的 确 在 一 些 任务 上 有 
所 体现 [07,9,153,195]。 

这 个 准则 和 之 前 训练 深度 置信 和 网络 相 类 似 ， 只 是 用 了 自动 解码 器 而 不 是 
受 限 玻 尔 兹 曼 机 。 对 比 实验 结果 表明 ， 深 度 置 信和 网 络 比 堆 闭 自动 编码 器 要 
好 07,9,15] 。 这 可 能 是 因为 ，CD -更 接近 对 数 似 然 梯度 ， 而 不 是 重 构 误 差 
的 梯度 。 然 而 ， 由 于 重 构 误 差 的 梯度 比 起 CD -有 更 小 的 方差 (因为 不 涉 
及 采样 ) ， 将 两 个 准则 至 少 在 学 习 最 初 阶段 混合 使 用 会 很 有 意义 。 还 需 注 意 
的 是 ， 将 常规 自动 解码 器 用 降 噪 自动 编码 器 代替 ， 深 度 置 信 网 络 的 优势 将 会 
消失 ( 见 7.2 节 )。 

使 用 自动 编码 妖 而 非 受 限 玻 尔 兹 曼 机 来 构建 深层 结构 的 优势 在 于 ， 只 要 训练 
的 准则 在 参数 上 是 连续 的 ， 那 么 所 有 层 的 几乎 任何 参数 化 方法 都 是 可 能 的 。 另 一 
方面 ， 应 用 了 对 比 散 度 算 法 或 是 其 他 已 知 的 易 处 理 的 对 数 似 然 梯度 估计 方法 的 概 
率 模型 的 种 类 是 很 有 限 的 。 堆 生 自 动 编码 器 的 劣势 在 于 ， 它 们 不 对 应 于 一 个 生成 
模型 。 对 生成 模型 而 言 ， 如 受 限 玻 尔 兹 曼 机 或 是 深度 置信 网 络 ， 从 模型 中 抽取 样 
本 可 以 很 快 检验 它 学 习 到 了 什么 ， 例如， 通过 观察 图 片 或 单词 序列 可 以 知道 模型 
认为 哪些 图 片 和 单词 序列 是 合理 的 。 


























”至 少 在 泛 化 的 意义 上 很 好 。 
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6.3 半 监 督 与 部 分 监督 训 


练 





利用 深度 置信 和 网络 和 堆叠 自 动 编码 器 ， 可 以 获得 两 种 不 同 的 训练 信号 ， 也 可 
以 将 它们 组 合 运 用 。 这 两 种 训练 信号 分 别 是 : 局 部 的 逐 层 无 监督 训练 信号 (由 
逐 层 连接 的 RBM 或 者 自动 编码 器 获得 ) 和 一 个 全 局 的 有 监督 训练 信号 (由 与 深 
度 置 信 网 络 或 者 堆 秋 自动 编码 器 共享 同样 的 参数 的 深度 神经 网 络 获得 )。 在 前 面 
介绍 的 算法 中 ， 这 两 种 训练 信号 是 按 顺序 使 用 的 : 首先 是 无 监督 训练 阶段 ， 然 后 
是 有 监督 训练 进行 精 调 的 阶段 。 其 他 的 组 合 方法 也 是 可 以 的 。 

一 个 可 行 的 方法 是 在 训练 中 组 合 使 用 这 两 种 信号 ， 这 种 方式 在 文献 [17] 
中 被 称 为 部 分 监督 训练 (Partially Supervised Training), XH [17] 发 现 即 使 当 
真实 的 输入 信号 的 分 布 P(X) 与 监督 训练 目标 PCY |X) 没有 很 强 的 关联 时 ， 这 种 
部 分 监督 训练 仍然 很 有 用 。 为 了 确保 受 限 玻 尔 兹 曼 机 可 以 在 它 的 隐 层 表示 中 保留 
与 Y 相 关 的 信息 ， 在 对 比 散 度 算法 的 更 新 时 结合 了 分 类 对 数 概 率 梯度 ， 这 样 对 
于 有 些 分 布 可 以 获得 更 好 的 预测 效果 。 

特别 是 在 深度 结构 大 背景 下 ， 一 个 有 吸引 力 的 半 监 督学 习 的 推广 ， 是 “ 自 
FEA” OME) 。 在 这 种 学 习 方 法 里 ， 无 标签 的 样本 也 有 可 能 来 自 除了 有 标签 类 
别 之 外 的 其 他 类 别 。 这 比 标准 的 半 监 督 场景 更 符合 实际 情况 。 举 个 例子 ， 即 使 我 
们 只 对 一 些 特定 的 目标 类 别 感 兴趣 ， 我 们 也 更 容易 从 网 络 上 获得 任意 目标 的 无 标 
签 样 本 (在 挑选 那些 我 们 所 关注 的 类 别 时 会 花费 很 多 精力 ) 。 
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这 章 我 们 讨论 一 些 模型 的 变 体 。 这 些 变 体 是 由 基本 的 受 限 玻 尔 兹 曼 机 和 自动 
编码 器 扩展 和 改进 而 来 的 。 

我 们 已 经 提 到 ， 对 受 限 玻 尔 效 曼 机 中 可 视 单元 和 隐藏 单元 的 条 件 概 率 分 布 进 
行 推广 是 一 件 很 直接 的 事情 ， 比 如 说 可 以 将 其 推广 至 指数 函数 族 中 的 任意 一 个 函 
B00) 。 高 斯 单元 、 指 数 单元 和 截断 指数 单元 已 经 在 文献 [17, 51, 99, 201] 
中 被 提出 或 使 用 。 通 过 简单 地 对 hh, A, 求 和 (或 者 积分 ) 的 作用 域 进行 改变 ， 
本 章 中 的 公式 可 以 很 容易 的 应 用 到 相应 的 情况 中 。 对 角 线 上 的 二 次 项 (比如 高 
斯 分 布 或 者 截断 高 斯 分 布 的 情况 ) 也 可 以 在 不 影响 自由 能 的 因 式 分 解 特性 的 情 
况 下 加 入 能 量 函 数 。 















































7.1 上 自动 编码 闫 和 受 限 豆 尔 兹 曼 机 的 稀 芷 化 表示 





稀 琉 化 在 近期 成 为 一 个 引 人 关 注 的 概念 ， 不 仅 是 在 机 顺 学 习 领 域 ， 还 有 统计 
和 信号 处 理 领域 ， 特 别 是 在 压缩 感知 相关 的 一 些 工 作 中 受到 了 重视 3” 。 但 它 
最 早 是 在 计算 神经 科学 中 引入 的 ， 用 于 对 视觉 系统 进行 稀疏 编码 1 。 现 今 它 已 
经 成 为 深度 卷 积 网 络 的 一 个 关键 部 分 ， 这 种 深层 卷 积 网 络 的 构建 使 用 了 基于 稀 下 C 
分 布 式 表示 的 自动 编码 器 的 一 种 变 体 [2175005552.4531。 同 时 稀 琉 化 也 是 深度 置 
信 网 络 的 关键 部 分 [001 。 


7.1.1 为 什么 需要 稀 朴 化 表示 





从 信息 论 的 角度 来 看 ， 稀 琉 表 示 比 固定 长 度 表 示 更 加 有 效 ， 因 为 它 的 有 效 表 
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示 位 数 是 随 着 样本 的 变化 而 变化 的 。 根 据 统 计 学 习 理 论 02…7 , 我们 用 来 编码 整 
个 训练 集合 的 比特 数 应 该 小 于 整个 训练 集合 的 比特 数 ， 以 此 来 得 到 好 的 泛 化 能 
力 。 在 我 们 感 兴趣 的 领域 中 ， 压 缩 不 同 的 样本 时 需要 用 不 同 的 位 数 来 表示 。 

从 另外 一 方面 来 看 ， 降 维 算法 ， 不 管 是 线性 的 主 成 分 分 析 (PCA) 和 独立 成 
分 分 析 (ICA) ， 亦 或 非 线性 的 局 部 线性 能 入 算法 (LLE) 和 等 距 上 映射 算法 (Iso- 
map) ， 把 每 一 个 样本 映射 到 了 相同 的 低 维 空间 。 根 据 第 一 段 的 阐述 ， 把 每 个 
样本 映射 到 不 同 的 低 维 空间 会 更 加 有 将 。 为 了 简化 描述 ， 不 妨 假设 映射 后 样 
本 的 表示 是 取 值 仅 为 0 和 1 的 向 量 。 如 果 我 们 需要 把 每 个 样本 映射 到 固定 长 
度 的 表示 ， 一 个 好 的 方案 是 选择 拥有 足够 的 自由 度 ， 从 而 能 表示 绝 大 多 数 样 
本 ; 同时 在 大 多 数 样本 上 ， 人 允许 把 这 个 定 长 的 表示 压缩 到 更 短 的 变 长 表示 。 
现在 我 们 有 了 两 种 表示 方法 ， 固 定 长 度 表示 : 可 以 用 来 作为 预测 和 决策 的 输 
A; 更 加 短小 的 变 长 表示 : 可 以 根据 茶 种 规则 从 固定 长 度 表示 中 压缩 得 到 。 
比如 ， 如 果 固 定 长 度 表 示 的 向 量 的 每 一 维 都 有 高 概率 为 0 ARE), OB 
么 在 大 多 数 情况 下 会 很 容易 压缩 这 类 向 量 。 对 于 某 个 固定 稀 牙 程度 的 稀 玻 向 
量 ， 其 所 有 配置 的 数目 远 远 小 于 更 小 的 稀 下 程 度 〈 其 至 没有 ) 的 向 量 的 配 
EAH, Fr DA Pein it Fh BS A ED 

Fi SAE RC TOE, TE EAR BEY BR NS BR EY Js Be Nb EAE 
的 输入 ， 所 以 它们 应 该 容易 被 解释 。 一 个 高 度 压 缩 的 编码 往往 更 加 的 耦合 ， 所 
以 在 不 考虑 整个 编码 的 情况 下 ， 这 种 编码 中 的 某 一 些 比特 很 难 被 解释 。 相 反 ， 
我 们 可 以 期 望 固定 长 度 的 稀 玻 表示 ， 具 有 每 一 个 比特 或 者 一 些 比 特 的 集合 可 以 
被 解释 的 性 质 ， 也 就 是 能 够 反映 输入 的 一 些 有 意义 的 性 质 ， 或 抓 住 导致 数据 变 
化 的 因素 。 以 输入 的 语音 信号 为 例 ， 如 果 某 一 些 比特 编码 了 说 话 人 的 特征 ， 其 
余 一 些 比特 编码 了 音素 产生 时 的 通用 特征 ， 我 们 就 能 够 分 离开 数据 中 表示 不 同 
村 征 的 部 分 ， 同 时 对 于 特定 的 预测 工作 来 说 ， 数 据 的 部 分 特征 可 能 已 经 是 足 
够 的 。 

文献 [150] 基于 上 自动 编码 器 的 模型 提出 了 男 一 种 解释 稀 玖 化 正确 性 的 方 
式 。 它 解释 了 在 配 分 函数 没有 被 明确 的 最 小 化 或 者 只 是 被 近似 的 最 小 化 的 情况 













































































66 ) 人 工 智能 中 的 深度 结构 学 习 


下 ， 只 要 我 们 用 特定 的 约束 条 件 〈 如 稀 玻 化 ) 去 约束 学 习 算法 得 到 的 向 量 表示 ， 
我 们 也 有 可 能 获得 一 个 好 的 模型 。 假 定 由 自动 编码 融 学 到 的 表示 是 稀 玻 的 。 那 么 
因为 稀 玻 表示 的 配置 数目 必须 少 于 稠密 表示 的 配置 数目 ， 自 动 编码 顺 无 法 很 好 地 
重 构 每 一 个 可 能 的 输入 样式 。 为 了 在 训练 集 上 最 小 化 平均 重 构 误 差 ， 自 动 编码 器 
需要 找到 能 够 抓 住 数 据 分 布 的 统计 学 特性 。 

首先 ， 文献 [150] 将 自由 能 与 一 种 重 构 误差 建立 了 联系 ( 当 对 隐藏 单元 的 
求 和 用 求 最 大 值 代替 的 时 候 ， 这 种 联系 就 建立 起 来 了 ) 。 因 此 在 训练 集 上 最 小 化 
重 构 误差 等 价 于 最 小 化 自由 能 ， 也 就 是 最 大 化 能 量 模 型 似 然 度 的 分 子 (参见 式 
(5.7) )。 因 为 分 母 ( 配 分 函数 ) 就 是 分 子 在 所 有 可 能 的 输入 配置 上 的 加 和 ， 所 
以 最 大 化 似 然 就 等 同 于 在 所 有 可 能 输入 的 配置 中 使 得 大 多 数 配置 的 重 构 误差 尽量 
大 ， 而 在 训练 集 上 的 配置 的 重 构 误 差 尽 量 小 。 如 果 编 码 器 〈 它 把 一 个 输入 映射 
成 它 的 某 种 表示 ) 被 某 种 方式 约束 ， 使 得 它 不 能 很 好 地 表示 所 有 可 能 的 输入 样 
式 〈 即 平均 重 构 误 差 在 这 些 可 能 的 输入 配置 上 很 高 ) ， 就 可 以 实现 上 述 的 优化 需 
求 。 注 意 这 在 编码 长 度 比 输入 小 很 多 的 情况 下 已 经 可 以 做 到 。 另 一 个 方法 就 是 引 
APR ET DS! ， 它 可 以 被 合并 到 训练 准则 中 。 这 种 方法 下 ， 对 应 于 配 分 函 
数 的 对 数 的 梯度 项 就 可 以 完全 被 省 略 ， 而 被 对 隐藏 层 单元 编码 的 稀 琉 正则 项 所 代 
蔡 。 有 趣 的 是 ， 这 种 方法 可 以 潜在 地 改善 CD -下 受 限 玻 尔 效 曼 机 的 训练 。CD -k 
训练 采用 近似 方法 来 佑 计 配 分 函数 的 对 数 的 梯度 ， 如 果 我 们 对 隐藏 层 表 示 加 入 稀 
玻 惩 加 项 ， 我 们 就 可 能 补偿 这 种 近似 带 来 的 损失 。 补 偿 的 原理 就 是 尽 可 能 增 大 所 
有 可 能 的 输入 配置 的 自由 能 ， 而 不 仅 是 增 大 那些 输入 样本 附近 的 ， 由 对 比 散 度 算 
法 的 负 向 阶段 重 构 产 生 的 样本 的 自由 能 。 





























7.1.2 BRK ADA SRS 


A LARET VATE RUE RR A "PI ET SY PB, ERE 
SRP FA Le os BY BEE A AEF) EL FA | MERR A 
辑 回归 (Sparsifying Logistic) HJF ZC SCHL AY, SiT 2 h — Pp VE te AE A E a 
(Nearly Saturating Logistic) 得 到 的 。 其 中 ， 通 过 自 适 应 的 更 新 它 的 偏 置 项 ( bi- 
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as) 可 以 保证 编码 明显 非 0 的 平均 次 数 维持 在 很 低 的 水 平 。 一 年 后 ， 这 个 研究 小 
组 又 提出 一 种 更 简单 的 算法 变 体 : 在 编码 时 利用 student -t 先 验 分 布 的 方法 。 在 
WE, student -t 先 验 一 直 用 于 获取 编码 的 最 大 后 验 估计 (MAP) ASABE, TK 
编码 用 于 在 计算 神经 科学 中 的 V1 视觉 皮层 模型 中 产生 输入 。 另 外 一 种 方法 也 与 
计算 神经 科学 相关 ， 该 方法 包含 两 层 稀 疏 化 受 限 玻 尔 效 曼 机 !0] 。 稀 玻 化 是 通过 
加 正则 项 的 方式 实现 的 ， 该 正则 项 惩罚 来 自 固定 低层 隐藏 单元 的 激活 值 期 望 的 偏 
差 。 而 文献 [139] 已 经 显示 图 像 稀 玻 编码 的 一 层 与 V1 层 所 见 非常 相似 。 文 献 
[110] 发 现 当 训 练 一 个 稀疏 化 的 深度 置信 网 络 〈 即 两 个 稀 玻 化 的 受 限 玻 尔 效 曼 
机 在 彼此 的 顶部 ) 的 时 候 ， 第 二 层 表 现 出 能 够 去 学 习 如 何 探测 视觉 特征 ， 一 如 
在 V2 视觉 皮层 区 域 ( 即 在 灵 长 类 动物 的 主要 处 理 流程 链 中 ，V1 视觉 皮层 之 后 
的 区 域 ) 中 观测 到 的 一 样 。 

在 压缩 感知 中 ， 稀 玻 化 是 在 编码 中 施加 六 惩罚 实现 的 ， 即 给 定 基 矩阵 W 
(W 的 每 一 列 是 一 个 基 ) 我 们 是 要 找到 这 样 的 编码 有， 使 得 输入 x 以 较 小 的 4 误 
差 被 重建 ， 同 时 有 ERG, BI 

min || x -Wh || +A lhl, (7.1) 























式 中 , hli = È (h; lo h 中 的 非 0 分 量 的 实际 数目 实质 上 应 该 由 4 范 数 给 定 
但 在 l 范 数 下 最 小 化 上 式 是 非常 困难 的 。 同 时 ,1 范 数 就 是 bp 范 数 的 一 个 特例 ， 
也 是 凸 的， 这 使 得 式 (7. 1) 的 整体 最 小 化 是 凸 优化 问题 。 正 如 文献 [30，47 ] 
中 所 提 到 的 ,4 范 数 是 0 范 数 的 很 好 的 替代 ， 自 然 也 导致 了 稀 琉 化 的 结果 。 同 
时 ， 在 某 些 条件 下 ， 它 甚至 可 以 准确 地 恢复 真正 的 稀 琉 编码 ( 如果 确实 有 一 个 
解 存在 的 话 ) 。 需 要 注意 的 是 ， 虽然 h 惩罚 项 对 应 拉 普 拉 斯 先 验 概率 ， 并 且 后 验 
在 0 处 并 没有 质点 ， 但 由 于 上 述 性 质 ， 后 验 的 众 数 (Mode) (ARMER 
(7.1) 时 会 得 到 ) 却 通常 为 0。 尽 管 最 小 化 式 (7.1) 是 凸 优化 问题 ， 但 对 编码 
和 解码 的 基 矩 阵 W 进行 联合 最 小 化 却 并 不 是 一 个 凸 优化 问题 。 尽 管 如 此 ， 诸 多 
论文 也 提出 了 不 同 的 算法 成 功 地 解决 编 解码 联合 优化 问题 145,53,96,121,139,148] 。 
与 有 向 图 模型 (例如 第 4.4 节 提 到 的 sigmoid BLAIS) RAL, BRAT 
表现 出 了 某 种 解释 消除 (Explaining Away) ME: 它 在 众多 隐藏 层 编码 中 仅 选择 
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一 个 配置 去 解释 输入 。 这 些 不 同 的 配置 相互 间 是 竞争 关系 ， 当 选择 一 个 时 ， 其 他 
配置 被 完全 关闭 。 这 有 好 处 也 有 坏处 。 好 处 是 ， 如 果 一 个 事件 比 其 他 概率 更 大 ， 
那么 它 就 是 我 们 所 想 强调 的 。 坏 处 就 是 ， 这 使 得 最 终 编 码 一 定 程度 上 不 稳定 ， 输 
Ax 的 一 个 微小 波动 ， 会 使 得 最 优化 的 编码 h 的 值 大 相 径 庭 。 当 把 h 作为 输入 去 
学 习 更 高 层 的 变换 或 分 类 器 时 ， 这 种 不 稳定 性 将 会 引起 麻烦 。 事 实 上 ， 如 果 相 似 
的 输入 却 在 稀 跑 编码 层 导 致 非常 不 同 的 输出 ， 这 会 使 得 模型 的 泛 化 更 加 困难 。 这 
也 是 一 些 研究 者 一 直 试 图 解决 的 缺点 。 尽 管 我 们 可 以 有 效 的 优化 式 (7.1), 
它 与 采用 常规 的 自动 编码 器 和 受 限 玻 尔 效 曼 机 来 计算 编码 相 比 ， 仍 然 要 慢 上 百 
倍 ， 这 导致 训练 和 识别 过 程 都 非常 的 慢 。 

另 一 个 与 稳定 性 相关 的 问题 是 ， 如 何 对 次 度 结构 中 的 高 层 基 和 矩阵 W 进 
行 联合 优化 。 从 精细 调整 编码 使 其 专注 在 信号 最 具有 区 分 度 的 方面 的 目标 上 
看 ， 这 个 特别 重要 。 正 如 第 9. 1. 2 节 所 提 到 的 ， 当 用 判别 性 准则 去 精 调 深度 
结构 的 所 有 层 时 ， 可 以 显著 改进 识别 错误 。 原 则 上 ， 可 以 通过 编码 的 优化 来 
计算 梯度 。 但 是 如 果 优 化 的 结果 不 稳定 ， 则 梯度 可 能 不 存在 或 者 在 计算 上 不 
可 靠 。 为 了 解决 稳定 性 问题 和 上 述 的 精 调 问题 ,文献 [6] 提出 用 更 柔和 的 
近似 代替 六 惩罚 ， 其 只 是 近似 地 产生 稀 玻 系数 ( 即 许多 非常 小 的 系数 ， 实 
际 上 没有 收敛 到 0)。 

需要 牢记 的 是 ， 稀 玖 自动 编码 器 和 稀 蚊 受 限 玻 尔 兹 曼 机 并 不 具有 以 下 儿 个 
稀 焉 编码 的 问题 : 编码 在 推断 过 程 中 的 计算 复杂 性 、 编 码 的 稳定 性 以 及 深度 结 
构 中 全 局 精 调 时 第 一 层 梯度 计算 的 开销 。 稀 玻 编 码 系统 只 将 解码 器 进行 了 参数 
化 ， 而 编码 器 则 被 隐 式 地 定义 为 优化 问题 的 解 。 然 而 ， 篆 规 自 动 编码 器 或 者 一 
个 受 限 玻 尔 兹 曼 机 都 有 一 个 编码 部 分 ( 即 计算 Ph |x) ) 和 一 个 解码 部 分 
( 即 计 算 P(x 天 ) ) 。 在 一 系列 关于 稀 玻 自 编码 器 的 文献 [1530，151，152， 
153] 中 ,提出 了 介 于 普通 自动 编码 器 和 稀 玲 编码 器 之 间 的 中 间 结 构 ， 应 用 于 
模式 识别 和 机 融 视 觉 任务 。 文 献 中 提出 ， 让 编码 h KEAR (ANCE Beit St t 
算法 中 ) ， 但 仍然 包含 一 个 参数 化 的 编码 器 ( 如 在 普通 自动 编码 器 和 受 限 玻 尔 
效 曼 机 中 ) 以 及 一 个 惩罚 项 。 这 里 惩罚 项 惩罚 的 是 自由 的 非 参数 化 的 编码 灵 
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和 参数 化 编码 器 的 输出 之 间 的 差异 。 通 过 这 种 方式 ， 最 优 的 编码 严 要 满足 两 个 
目标 : 一 是 重 构 好 输入 〈 如 同 在 稀 玻 编码 中 的 做 法 ) ， 二 是 与 编码 器 的 输出 的 
差异 较 小 〈 由 于 编码 器 的 参数 化 的 结构 很 简单 ， 输 出 应 该 是 稳定 的 ) 。 在 实验 
中 ， 编 码 需 就 是 仿 射 变换 之 后 做 一 个 像 sigmoid 那样 的 非 线性 转换 ， 解 码 器 则 
和 黎 玻 编码 一 样 是 线性 的 。 实 验 指出 ， 所 得 到 的 编码 在 深层 结构 的 中 表现 得 很 
好 (利用 有 监督 方法 做 精 调 ) 0) ， 同 时 比 稀 蕊 编码 [2 更 加 稳定 (例如 ， 对 
于 输入 图 像 的 轻微 扰动 更 稳定 )。 


7.2 EEE 


降 噪 自动 编码 器 "95 是 一 种 随机 版 本 的 自动 编码 器 ， 其 输入 在 原 输 入 的 基础 
上 进行 一 些 随机 污染 (添加 噪声 ) ， 但 是 仍 使 用 未 经 改变 的 原始 输入 作为 重 构 的 
目标 。 直 观 上 ， 降 噪 自动 编码 器 在 完成 两 件 事情 : 对 输入 进行 编码 (保留 输入 
的 信息 ) 和 恢复 输入 中 被 随机 污染 的 部 分 。 只 有 当 抓 住 输入 中 的 统计 依赖 ， 我 
们 才 有 可 能 完成 第 二 件 事 情 。 实 际 上 ， 在 文章 [195] 中 ， 随 机 污染 会 将 输入 中 
的 某 些 值 设置 为 0 (达到 一 半 的 数值 ) 。 因 此 ， 对 随机 选择 的 缺失 模式 的 子 集 ， 
降 噪 自动 编码 器 尝试 使 用 那些 未 缺失 的 值 来 预测 那些 缺失 的 值 。 降 噪 自动 编码 器 
的 训练 准则 表现 为 如 下 重 构 的 对 数 似 然 度 : 
-logP (x |c(x) ) (7.2) 





这 里 x 是 未 污染 的 输入 ,x 是 随机 污染 后 的 输入 ，c(z) 是 对 zx 的 编码 。 因 此 
解码 器 的 输出 可 视 为 上 述 分 布 〈 未 污染 的 输入 上 的 分 布 ) 的 参数 。 文 献 【195 ] 
的 实验 中 ， 这 个 分 布 是 可 分 解 而 且 是 二 值 的 (每 个 像素 一 个 比特 ) ， 输 入 像素 点 
的 强度 可 解释 为 概率 。 值 得 注意 的 是 ， 降 品 自 动 编码 器 的 循环 版 本 早 在 文献 
[174] 中 就 被 提出 ， 其 中 使 用 一 种 堵塞 的 形式 来 污染 数据 (将 图 片 中 某 一 矩形 
区 域 设 置 为 0) 。 实 际 上 ， 使 用 自动 编码 器 来 降 噪 的 方法 在 更 早 之 前 就 已 经 被 提 
出 09,5] 。 在 文献 [195] 中 主要 的 创新 点 在 于 ， 其 展示 了 这 种 策略 如 何 成 功 应 
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用 于 深度 结构 的 无 监督 预 训练 中 可 以 取得 很 好 的 效果 ， 而 且 它 将 降 品 自动 编码 器 
与 生成 模型 联系 起 来 。 

考虑 一 个 随机 的 d 维 向 量 ¥，5S 是 一 个 有 个 索引 的 集合 ，Xs = (Xs, Xe, 
Xs, ) 是 使 用 S 挑选 出 来 的 子 集 ， 而 县 .表示 所 有 不 在 $ 中 的 元 素 。 我 们 已 
经 知道 ， 在 某 些 不 同 的 $ 选择 的 情况 下 ， 条 件 分 布 P(Xs |X_s) 可 以 很 好 地 描述 
联合 分 布 P(X) 的 特征 ， 这 种 特性 已 经 被 使 用 起 来 ， 例 如 在 吉 布 斯 采样 中 就 有 使 
用 。 值 得 注意 的 是 ， 当 |S| =1 而 且 输 入 中 的 某 些 维度 对 完全 相关 时 ， 一 些 不 好 
的 事情 就 会 发 生 ， 即 使 输入 的 联合 分 布 没有 被 真 正 抓 住 ， 我 们 依旧 能 做 出 很 好 的 
预测 。 这 对 应 一 条 没有 混合 的 吉 布 斯 链 ( 换 句 话说 ,没有 收敛 ) 。 通 过 采用 随机 
大 小 的 子 集 S 以 及 坚持 重 构 出 完整 的 原始 输入 ， 降 噪 自动 编码 器 中 可 能 避免 这 些 
问题 。 

有 趣 的 是 ， 在 8 种 计算 机 视觉 任务 的 一 系列 实验 比较 中 ， 如 果 铸 加 降 品 自动 
编码 器 来 搭建 深度 结构 ， 并 使 用 有 监督 准则 进行 精 调 ， 其 泛 化 性 能 要 明显 优 于 每 
加 常规 自动 编码 器 所 搭建 的 深度 结构 ， 并 且 其 性 能 可 以 与 深度 置信 网 络 相当 甚至 
EDS, 

降 噪 自动 编码 器 的 一 个 有 趣 的 特性 是 其 相当 于 一 个 生成 模型 。 它 的 训练 准则 
是 生成 模型 对 数 似 然 度 的 一 种 边界 情况 。 在 文献 [195] 中 讨论 了 多 种 生成 模 
型 。 一 个 简单 的 生成 模型 是 半 参数 的 ， 取样 一 个 训练 样本 ， 随 机 污染 它 ， 使 用 纺 
码 函 数 来 获得 该 样本 的 隐藏 表示 ， 再 使 用 解码 函数 对 隐藏 表示 进行 解码 ( 即 获 
得 输入 概率 分 布 的 参数 ) ， 接 着 由 此 来 取样 一 个 样本 。 这 种 方法 需要 一 直 保留 训 
练 集 (就 像 非 参 数 化 密度 模型 一 样 ) ， 很 多 情况 下 难以 满足 。 文 献 [195] 中 也 
探究 了 其 他 可 能 的 生成 模型 。 

降 噪 自动 编码 器 的 另 一 个 有 趣 的 特性 是 ， 它 很 自然 地 适用 于 存在 缺损 的 数值 
或 者 多 模 态 数据 (对 于 任何 特定 样本 ， 总 有 一 个 多 模 态 子 集 是 可 以 获得 的 ) 。 这 
是 由 于 降 噪 自动 编码 器 在 训练 的 过 程 中 使 用 的 就 是 存在 缺损 的 数据 (这 些 缺 损 
总 是 随机 的 隐藏 了 输入 中 的 某 些 值 ) 。 
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7.3 JAW 


通过 在 可 见 层 节点 之 间 添 加 相互 作用 项 或 者 层 内 连接 ， 可 以 减少 受 限 玻 尔 效 
曼 机 受 限制 的 程度 。 从 P(h|x) 中 取样 h 是 很 简单 的 , 但 从 P(x |h) 中 取样 x 通 
常 来 说 难度 很 大 ， 等 同 于 从 马尔 可 夫 随 机 场 (一 种 完全 可 观测 的 玻 尔 兹 曼 机 ) 
中 取样 ， 其 中 偏 移 值 取 决 于 的 值 。 文献 [141] 中 提出 了 一 种 可 以 抓 住 图 片 中 
统计 规律 的 模型 ， 其 结果 显示 ， 基 于 该 模型 的 深度 置信 和 网络 相 比 基于 原始 受 限 玻 
尔 兹 曼 机 的 深度 置信 网络 而 言 ， 可 以 生产 更 加 真实 的 图 像 块 。 实 验 结果 也 表明 ， 
其 生成 的 图 像 块 与 真实 图 像 块 在 像素 强度 上 具有 相似 的 边缘 统计 和 成 对 统计 
特性 。 

使 用 隐藏 层 单元 ， 层 内 连接 能 够 更 容易 地 抓 住 数据 中 两 两 特征 之 间 的 依赖 关 
系 ， 从 而 将 那些 高 阶 依 赖 关 系 留 给 隐藏 层 节 点 来 学 习 。 受 限 玻 尔 兹 曼 机 的 第 一 层 
层 内 连接 结构 可 以 视 作 一 种 对 数据 的 白化 操作 ， 而 白化 操作 已 经 被 人 们 发 现 是 图 
像 处 理 系统 中 十 分 有 用 的 预 处 理 步 又 0??1 。 文 献 [141] 中 提出 在 深度 置信 网络 
的 所 有 层级 中 都 使 用 层 内 连接 (可 以 视 作 一 个 有 层级 结构 的 马尔 可 夫 随 机 场 ) 。 
这 种 结构 的 精妙 之 处 在 于 ， 隐 藏 层 节点 只 需要 关注 于 高 级 的 抽象 特征 ， 那 些 局 部 
细节 则 交 给 层 内 连接 去 处 理 。 举 例 来 说 ， 当 生成 一 张 脸 的 图 片 时 ， 嘴 和 上 鼻子 的 大 
概 位 置 由 那些 高 级 特征 所 确定 ， 而 它们 的 精确 位 置 的 选 定 则 要 满足 编码 在 低层 的 
层 内 连接 中 的 成 对 的 参数 关系 。 使 用 这 种 方法 生成 的 图 片 通常 具有 更 加 尖锐 的 边 
界 ， 图 像 中 各 部 分 的 相对 位 置 也 更 加 准确 ， 而 且 无 需 大 量 的 高 层 节 点 。 

为 了 从 P(x1h) 中 进行 取样 ,我 们 可 以 从 当前 样本 启动 一 个 马尔 可 夫 链 (在 
层 内 连接 模型 中 ,像素 之 间 已 经 具有 了 相互 依赖 关系 ， 所 以 收敛 的 速度 应 该 比较 
快 )， 而 且 只 在 x 的 基础 上 运行 一 段 较 短 的 路 径 (保持 及 不 变 )。 记 串 为 可 见 层 
到 可 见 层 的 连接 矩阵 ， 如 玻 尔 兹 曼 机 的 能 量 函 数 中 的 式 (5. 15) 那样 。 为 了 降低 
模型 中 对 比 散 度 算法 的 采样 方差 ,文献 [141] 中 使 用 五 个 衰减 平均 场 的 步骤 来 
代替 常规 吉 布 斯 链 : 
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x, =ax,_, + (1-a)sigm(b +Ux,_,+Wh), ae(0, 1) 


7.4 条 件 RBM 和 时 序 RBM 


条 件 RBM 是 一 种 受 限 玻 尔 兹 曼 机 。 它 的 参数 不 是 自由 参数 ， 而 是 条 件 随机 
变量 的 参数 化 函数 。 举 个 例子 ， 考 虑 一 个 受 限 玻 尔 效 曼 机 ， 它 的 观测 向 量 x 和 隐 
nit h 的 联合 概率 分 布 为 P(x, h), GER (b, c, W) 的 关系 如 式 (5.15), 
其 中 4b 表示 输入 偏 置 ，c 表示 隐藏 变量 的 偏 置 ， 琴 表示 权重 矩阵 。 这 种 上 下 文 依 
赖 的 受 限 玻 尔 效 曼 机 在 文献 [182, 183] 中 有 介绍 ， 它 的 隐 变 量 偏 置 c 是 一 个 
关于 上 下 文 变量 z 的 仿 射 函数 。 因 此 这 样 的 受 限 玻 尔 效 曼 机 表达 为 P(x, h |z) 或 
考 对 有 做 边缘 化 得 到 P(x jz) 。 一 般 来 说 ， 受 限 玻 尔 效 曼 机 的 参数 0 = (b,c, W) 
可 以 写成 参数 化 的 方程 96=f(z; w) ， 即 条 件 RBM 在 条 件 z 下 的 实际 的 自由 参数 
记 为 w。 将 受 限 玻 尔 效 曼 机 推广 到 条 件 RBM 时 也 可 以 构造 深度 结构 ， 其 中 每 一 
层 的 隐藏 变量 都 以 其 他 的 变量 (通常 表达 某 种 形式 的 上 下 文 ) 的 值 为 条 件 。 

受 限 玻 尔 效 曼 机 中 的 对 比 散 度 算法 也 可 以 很 容易 的 推广 到 这 类 条 件 RBM 中 。 
参数 9 的 梯度 估计 子 A0 可 以 通过 简单 的 反 向 传播 直接 推出 o 的 梯度 估计 子 : 














00 


在 文献 [183] 研究 的 仿 射 变换 ec =B+Mz CHEF c, B 和 z 是 列 向 量 ，M EE 
Me) 的 情况 下 ， 条 件 参 数 的 对 比 散 度 更 新 可 以 简化 如 下 
AB=Ac 





AM = Acz' (7.4) 

其 中 最 后 一 个 乘法 是 外 积 (可 以 应 用 链 式 法 则 ) ，Ac 是 由 CD -% 算 法 给 出 的 在 
隐藏 单元 偏 置 上 的 更 新 。 

这 样 的 想法 已 经 成 功 地 应 用 到 了 对 人 类 运动 的 序列 数据 的 条 件 概 率 分 布 

P(x,|%,-1, %)-2.%,-3) P ER, Hx, 是 一 个 向 量 ， 它 结合 了 运动 关节 的 角 

度 和 其 他 几何 特征 ， 这 些 特 征 是 由 从 诸如 走 和 跑 这 样 的 运动 数据 中 计算 得 到 的 。 


7 受 限 玻 尔 兹 曼 机 和 自动 编码 器 的 变 体 \ 73 


有 趣 的 是 ， 给 定 前 有 帧 的 采样 数据 ， 然 后 通过 如 下 的 近似 方法 连续 采样 第 i; 帧 的 
数据 ， 可 以 生成 真实 的 人 类 运动 序列 

Playtest) = Pom ta os) I PC aas aas te 

(7.5) 
初始 帧 可 以 用 特殊 的 空 值 作为 上 下 文 或 者 用 单独 的 模型 P(x , xs， e, Xp) 
生成 。 

如 文献 [126] Bras, 不仅 偏 置 可 以 依赖 于 上 下 文 ， 让 权重 也 依赖 于 上 下 文 
变量 条 件 也 是 有 用 处 的 。 在 这 种 情况 下 ， 通 过 一 个 表示 相互 作用 的 参数 7, ， 引 
入 了 对 输入 单元 x;， 隐 藏 单元 h, 和 上 下 文 单元 z 之 间 的 三 向 交互 建 模 的 能 
这 使 得 我 们 可 以 大 大 地 增加 了 自由 度 的 数目 。 这 种 方法 已 经 被 应 用 于 建 模 学 习 捕 
获 流 场 (Flow Fields), x Al z 分别 表示 视频 中 的 当前 图 像 和 之 前 的 图 像 ('251。 

通过 捕获 序列 中 不 同时 间 i 的 隐藏 状态 〈 称 为 状态 ) 之 间 的 时 间 依 赖 性 ， 可 
以 对 序列 数据 的 隐 变 量 h, 进行 建 模 ， 这 种 统计 模型 可 以 获得 更 充分 的 建 模 能 力 。 
这 也 是 隐 马 尔 可 夫 模 型 (HMMs) 411 可 以 捕获 长 观测 序列 oe, ，z ，… 之 间 的 依 
赖 关 系 的 原因 ， 尽 管 这 个 模型 只 把 隐藏 状态 序列 hi ，h,，… 考 虑 为 阶 数 为 1 的 
马尔 可 夫 链 (只 有 hh, 和 有 ,1 之 间 有 直接 依赖 关系 )。 而 在 HMMs 中 ， 隐 藏 状态 
的 表达 h, 是 局 部 的 (hh, 的 所 有 取 值 是 可 数 的 ， 并 且 每 个 值 之 间 由 一 些 特定 的 参 
数 联 系 ) ， 因 此 时 序 RBM (Temporal RBMs) 在 文献 [180] 中 被 提出 ， 它 可 以 
构造 状态 的 一 种 分 布 表 达 。 这 种 想法 是 前 面 提 到 的 条 件 RBM 的 一 个 扩展 ， 区 别 
在 于 : 上 下 文 不 仅 包括 过 去 的 输入 ， 也 包括 了 过 去 的 状态 ， 例 如 ， 我 们 建立 一 个 
如 下 的 模型 

















P(h,, x, (h,i, X1, as Xp) (7.6) 
其 中 上 下 文 是 z =(h1, X1 7s hip, xX,_4)， 如 图 7.1 所 示 。 虽然 由 时 序 
RBM 生成 的 序列 的 采样 方法 可 以 和 条 件 RBM 一 样 (在 每 一 步 ， 都 用 同样 的 蒙特 
卡 罗 马 尔 可 夫 链 近似 从 受 限 玻 尔 兹 曼 机 中 采样 )， 但 是 ， 在 给 定 一 个 输入 序列 时 
采用 这 样 的 方式 准确 推断 隐藏 状态 序列 不 是 那么 容易 。 取 而 代 之 的 是 ,文献 
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图 7.1 时 序 RBM 对 序列 数据 建 模 的 例子 ， 包 含 了 隐藏 状态 之 间 的 相关 性 。 双 向 的 
箭头 表示 的 是 无 向 的 连接 ， 即 受 限 玻 尔 兹 曼 机 。 单 向 箭头 的 虚线 边 表示 了 条 件 依赖 关 
Ro (x,, h,) 受 限 玻 尔 兹 曼 机 的 条 件 是 过 去 的 输入 及 过 去 的 隐藏 状态 向 量 的 值 











[180] 中 提出 使 用 平均 场 滤波 估计 作为 隐藏 序列 的 后 验 概率 的 近似 。 





7.5 分 解 式 RBM 








在 若干 概率 语言 模型 中 ， 都 已 经 提出 了 学 习 每 个 词 的 分 布 式 表示 的 一 些 方 
(15 16,37 43 128,130 169,170,171 207] 。 在 利用 受 限 玻 尔 效 曼 机 对 词 序列 建 模 时 ， 如 果 
可 以 用 一 种 参数 化 的 方法 自动 地 学 习 每 个 词 在 词 表 中 的 分 布 ， 这 样 将 会 很 方便 。 
这 就 是 文献 [129] 提出 的 方法 。 对 于 一 个 词 序列 进行 建 模 的 受 限 玻 尔 效 曼 机 ， 
ee iy Voie) ee eee 
E, Mo 是 仅 在 词 表 中 v, 的 位 置 处 为 1， 其 余 位 置 全 为 0 的 向 量 , x = (0',, vh, 
.ai) o 文献 [129] 使 用 一 种 分 解 的 方法 将 受 限 玻 尔 兹 曼 机 的 权重 矩阵 W 分 
解 成 两 个 因子 ， 其 中 一 个 与 输入 子 序列 中 的 位 置 + 有关， 另 一 个 与 之 无 关 。 考 虑 
给 定 输入 子 序列 (o, 由，…， o) 时 ， 对 隐藏 层 单元 概率 的 计算 。 我 们 并 不 直 
接 用 矩阵 W 去 乘 x*， 而 是 进行 如 下 的 步骤 : 首先， 通过 一 个 矩阵 丸 将 每 一 个 词 
w, 映射 为 一 个 4 HEATER, =Ro ， 其 中 ze |1, 2,…, kl; 然后 将 由 向 量 拼 
FEA CR’ wo Roos oo Ry) REWE B。 因 此 W = BDiag (R), 其 中 
Diag( R) 是 一 个 对 角 线 为 R 的 块 对 角 和 矩阵 。 这 个 模型 可 以 产生 对 数 似 然 度 更 好 的 


n 元 组 语言 模型 (3”,130] 。 当 它 的 预测 和 当前 最 好 性 能 的 元 组 语言 模型 的 预测 进 
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行 平均 后 ， 其 性 能 可 以 进一步 提升 029] 。 
7.6 受 限 玻 尔 兹 曼 机 和 对 比 散 度 的 推广 


让 我 们 来 尝试 让 受 限 玻 尔 兹 曼 机 的 定义 更 一 般 化 ， 以 便 包含 一 个 大 类 的 参数 
化 模型 。 之 前 讨论 过 的 思想 和 学 习 算法 (譬如 对 比 散 度 ) 能 直接 应 用 在 这 些 模 
型 中 。 按 照 如 下 步骤 将 受 限 玻 尔 效 曼 机 一 般 化 : 一 个 广义 的 受 限 玻 尔 效 曼 机 是 一 
个 基于 能 量 函 数 的 概率 模型 。 这 里 输入 层 是 向 量 x， 隐 藏 层 为 向 量 疡 ， 其 能 量 函 
数 的 定义 使 得 P(h|x) 和 P(x|h) 都 可 以 进行 因 式 分 解 。 这 个 定义 可 以 采用 能 量 
函数 参数 化 的 形式 ,文献 [73] 也 提出 了 这 样 的 定义 : 

命题 7.1 如 果 模 型 的 能 量 函 数 形式 类 似 式 (5.5), 使 得 P(h|x) = 
TP (hr, x) AS P(x |) = 了 IP(xj|h)， 则 该 能 量 函 数 必定 有 如 下 形式 








Energy(x, h) = Di p(x) + È EC) + Èn jh x) (7.7) 
J l tJ 


这 





是 一 个 对 Hammersley - Clifford 定理 3 的 直接 应 用 , 文献 [73] 也 显示 
上 面 的 函数 形式 是 得 到 互补 先 验 (Complementary Priors) 的 充分 必要 条 件 。 通 过 
选择 合适 的 P(h) ， 互 补 先 验 允 许 后 验 概率 分 布 P(h|x) 进 行 因 式 分 解 。 

在 输入 层 和 隐藏 层 均 为 二 值 的 情况 下 ， 这 个 新 的 形式 化 没有 真正 地 带 来 任何 
额外 的 表达 能 力 。 实 际 上 ,依据 2 x2 AGH (hi, x) 总 可 以 被 重 写 为 一 个 关 
于 (h;, x) 的 二 次 多 项 式 : a + bxj +ch; + dhx;， 所 以 n; Chi, x) 可 以 取 最 多 
四 个 不 同 的 值 。5 和 < 则 可 被 归 入 偏 置 项 ， 而 a 则 是 一 个 全 局 常数 ， 对 模型 没有 
影响 ( 它 会 在 配 分 函数 中 被 消去 ) 。 

从 男 一 个 方面 看 ， 当 x R h 是 实数 向 量 时 ， 我们 可 能 会 想 使 用 更 高 容量 的 模 
型 来 刻画 (h;, x) 的 交互 。 这 个 模型 可 能 是 非 参数 模型 。 比 如 ， 逐 渐 添 加 N, 
的 参数 项 以 便 更 好 地 模拟 互相 依赖 过 程 。 而 且 即 使 n, ;是 很 复杂 的 方程 形式 ， 从 
条 件 概 率 密度 P(x |h) 和 P(h;|x) 中 采样 都 是 可 行 的 。 这 是 因为 它们 都 是 一 维 的 
概率 密度 ， 对 其 进行 近似 采样 和 数值 积分 运算 都 很 容易 。 (例如 对 互相 交 释 的 区 
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间或 柱状 区 间 (Bins) 上 的 密度 进行 累加 运算 。) 

这 种 分 析 也 强调 了 受 限 玻 尔 兹 曼 机 的 基本 限制 。 就 是 它 的 参数 化 仅 考虑 相 邻 
层 变 量 间 两 两 的 相互 作用 。 由 于 户 是 隐藏 变量 而 且 我 们 又 可 以 选择 隐藏 变量 的 数 
H, 我们 仍 有 足够 的 表达 能 力 来 描述 所 有 可 能 的 x 的 边缘 概率 〈 实 际 上 ， 我 们 
可 以 表达 任何 离散 概率 分 布 021 ) 。 另 一 些 受 限 玻 尔 效 曼 机 的 变 体 (如 7.4 节 中 
所 介绍 ) 模型 允许 三 元 交互 1029] 。 

在 广义 受 限 玻 尔 效 曼 机 公式 中 什么 是 对 比 散 度 算 法 更 新 呢 ? 为 了 简化 符号 ， 
我 们 在 式 (7.7) PEREA p,’ s ME’ s TARIA n, s， 所 以 在 接 下 来 的 公式 
中 我 们 可 以 省 略 它们 。 定 理 5.1 可 以 使 用 下 面 的 公式 








FreeEnergy(x) =- log X, exp ( 一 > ij(h;, x;) ) 
h tJ 


因此 ,样本 x 的 自由 能 梯度 如 下 


exp (- E m Ch, x;) ) 
dFreeEnergy(x) _ í 之 a : ðn; ;(h;, x;) 
ap h > exp (- > Ti Ales x;) ij oR 
h ij 


E > P(h i) py ðn; (h, x;) 
h i 00 
(h;, x;) 


LA x — «| 
根据 命题 7. 1 ， 吉 布 斯 链 我 们 仍 能 使 用 。 在 吉 布 斯 链 的 第 上 步 之 后 可 以 截断 对 数 
似 然 梯 度 展开 式 ( 见 式 〈5.28) ) ， 用 来 自 这 条 吉 布 斯 链 的 样本 来 近似 期 望 。 通 
过 这 些 ， 我 们 获得 在 训练 点 xi 附近 的 对 数 似 然 梯度 的 近似 ， 而 这 里 的 近似 值 仅 
依赖 于 吉 布 斯 样本 hi, Ie, xpa: 


ðlogP (x; ) T dFreeEnergy(x,) 0FreeEnergy(x;,,,) 
a 0 ü 0 i 






























































2 (- > an; Chi is Xi ;) x > Omi Miss, i> Sa Joc Ao 
i 00 ~= 00 


XPM FT SERB 2K LAY CD -k SK, AO 是 模型 参数 9 的 更 新 规则 。 在 多 
数 的 参数 化 类 型 中 ， 我 们 总 可 以 让 @ 的 特定 项 以 非 显 性 加 和 的 方式 依赖 于 n, jo 
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例如 ，( 直接 取 基 于 hh, ;的 期 望 而 不 是 进行 采样 ) 我 们 在 如 下 情况 可 以 恢复 到 算 
法 1 
bx. c,h; 
ni, ;(h;, x;) = -W,h,x, -~~+-—— 


TOH n, ny : 





IIF, n, 入 分 别 是 隐藏 单元 和 可 见 单元 的 数目 。 我 们 也 可 以 根据 不 同 的 能 量 
函数 形式 以 及 隐藏 和 输入 单元 允许 的 值 域 重新 得 到 其 他 模型 的 变 体 -20,”1 。 


8 
DBN 各 层 联合 优化 中 的 随机 变 分 边界 


在 本 节 中 ， 我 们 将 讨论 训练 深度 置信 网络 (DBN) 的 数学 基础 。 一 个 DBN 
的 对 数 似 然 度 可 以 使 用 Jensen 不 等 式 来 确定 其 下 界 ， 正 如 我 们 下 面 要 讨论 的 ， 
这 个 结论 可 以 证 明 在 文献 [73] 中 提出 的 并 在 章节 6. 1 中 描述 的 逐 层 贪心 训练 策 
We, ESL (6.1) 作为 DBN 的 联合 分 布 ， 为 了 简化 记号 ,我 们 记 h (第 一 层 
隐藏 向 量 ) 为 hn， 并 引入 任意 条 件 分 布 0(hlx)。 首 先 将 log P(x) 乘 以 1 = 





> (hlx)， 再 利用 P(x) =P(x,h)/P(hlx)， 然后 乘 上 1=Q(hlx)/Q(hlx)， 
h 
并 展开 这 些 项 . 
P(x,h) 
log P = hix))log P h\x)lo 
g P(x) = (È QCh Ix) log Px) = È OCh Ix) log pep ey 


_ P(x,h) Q(hIx) 
= È OCh lx)log Brix) OChIx) 








= Hom + È QCh lx)log P(x,h) + Y, QCh 1x) log an 


= KL(Q(h Ix) || P(A Ix)) + Hon) + 


2, QCh |x) (log PCA) + log P(x Ih) ) (8.1) 





RP, Hoo 是 分 布 QO CAIx) AUK, KL 散 度 的 非 负 性 可 得 到 如 下 不 等 式 

log P(x) = Hocnx) + 之 Q(h lx) (log P(h) + log P(xIh)) (8.2) 
4 PAO 相同 时 等 号 成 立 ， 例 如 单 层 的 情况 〈 即 受 限 玻 尔 效 曼 机 ) 。 而 选用 来 
表示 在 DBN 下 的 概率 ,用 0 来 表示 在 一 个 受 限 玻 尔 兹 曼 机 下 (第 一 层 受 限 玻 尔 


和 


效 曼 机 ) 的 概率 ， 并 在 公式 里 选择 Q (hx) 作为 第 一 层 受 限 玻 尔 效 曼 机 中 给 定 可 





8 DBN 各 层 联合 优化 中 的 随机 变 分 边界 人 79 


视 变 量 条 件 下 的 隐藏 变量 的 条 件 分 布 。 我 们 定义 第 一 层 RBM， 使 得 (xih) = 
P(x1h)。 一 般 来 说 P(hlx) 关 0Q(hlx)， 这 是 因为 虽然 第 一 层 隐藏 层 向 量 h =h 
的 边缘 分 布 P(h) 由 DBN 里 上 面 的 层 决 定 , 但 是 受 限 玻 尔 兹 曼 机 里 的 边缘 分 布 
Q(h) 却 只 取决 于 受 限 玻 尔 兹 曼 机 的 参数 。 





8.1 将 RBM 展开 为 无 限 有 问 置信 网 络 





在 使 用 上 述 似 然 度 分 解 来 证 明 深度 置信 和 网络 (DBN) 的 贪心 训练 过 程 之 前 ， 
我 们 需要 建立 DBN 中 的 P Ch! ) 和 第 一 层 受 限 玻 尔 效 曼 机 中 对 应 的 边缘 分 布 
Q( 有 如 ) 之 间 的 关系 。 一 个 有 趣 的 发 现 是 ， 存 在 一 个 DBN， 其 边缘 分 布 h 等 于 第 
一 层 受 限 玻 尔 兹 曼 机 的 让 的 边缘 分 布 ， 即 PC!) =Q), RE P 的 维度 等 于 
h =x 的 维度 。 为 了 看 到 这 一 点 ， 考 虑 一 个 两 层 RBM， 其 第 二 层 权 重 和 矩阵 是 第 
一 层 的 转 置 (这 是 我 们 需要 维度 一 致 的 原因 ) 。 因 此 ， 通 过 RBM 联合 分 布 中 可 
视 层 和 隐藏 层 变量 的 对 称 性 ( 转 置 权重 和 矩阵 时 )， 第 二 层 RBM 可 视 向 量 的 边缘 
分 布 等 于 第 一 层 中 隐藏 向 量 的 边缘 分 布 0(h' )。 

发 现 这 一 点 的 男 一 个 有 趣 的 方式 由 文献 [73] 给 出 : 考虑 无 限 吉 布 斯 采样 马尔 
可 夫 链 。 这 个 链 在 := - o 开始 ， 并 在 1=0 结束 。 第 一 层 受 限 玻 尔 兹 曼 机 在 x 和 
之 间 交 替 采 样 。 在 ;为 偶数 时 采样 可 视 向 量 ， 在 ;为 奇数 时 采样 隐藏 向 量 。 这 条 
链 可 以 被 看 作 是 一 个 具有 绑 定 参数 (所 有 偶数 步骤 用 权重 矩阵 W, 奇数 步 骤 用 权 
重 矩 阵 W) 的 无 限 有 向 置信 网 络 。 换 种 方式 ， 如 图 8. 1 中 所 示 ， 根据 ;的 奇偶 ， 我 
们 能 通过 带 有 权重 矩阵 WW 或 W' 的 受 限 玻 尔 兹 曼 机 表示 从 t= -0 到 i = 7 的 任 一 子 
链 ， 并 获得 一 个 1 -7 层 (不 算 输入 层 ) 的 DBN。 这 个 观点 也 显示 出 ， 当 第 二 层 的 
权重 等 于 第 一 层 权 重 的 转 置 的 时 候 ， 一 个 两 层 的 DBN 等 价 于 单个 的 RBM。 
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RBM x = = 














图 8.1 一 个 受 限 玻 尔 效 曼 机 能 被 展开 为 一 个 带 绑 定 权重 的 无 限 有 向 置信 网 络 〈 见 正文 ) 。 
如 左 图 所 示 ， 根 据 层 数 的 奇偶 性 ， 权 重 和 矩阵 W 或 它 的 转 置 会 被 使 用 。 这 个 随机 变量 序列 对 应 
于 一 个 吉 布 斯 马尔 可 夫 链 。 该 链 产 生 x，( 对 于 大 的 1)。 如 右 图 所 示 ，DBN 中 顶层 的 RBM 也 可 







































































以 用 同样 的 方式 展开 。 这 显示 一 个 深度 置信 网 络 是 一 个 无 限 有 向 图 模型 ， 其 中 一 些 层 是 绑 定 的 
(除了 底部 的 一 些 层 ) 








8.2 逐 层 贪心 训练 的 变 分 证 明 





在 这 里 ， 我 们 讨论 由 文献 [7 ha ene 即 增加 一 个 受 限 玻 尔 兹 曼 机 
层 会 提高 DBN 的 似 然 度 。 假 设 我 们 已 经 训练 了 一 个 受 限 玻 尔 效 曼 机 对 x 进行 建 
模 ， 通 过 两 个 条 件 分 布 0(h 1x) 和 Q(x1h" ) ， 它 为 我 们 提供 了 一 个 模型 0(x)。 
利用 上 一 小 节 的 说 法 ， 通 过 让 P(x lh!) = Q(xlh!)， 我 们 初始 化 一 个 等 价 的 两 层 
DBN， 即 生成 P(x) =Q(x), FFA PC! A?) 由 第 二 层 受 限 玻 尔 兹 曼 机 给 出 。 第 
二 层 权 重 和 矩阵 是 第 一 层 权 重 矩 阵 的 转 置 。 

现在 ， 让 我 们 回 过 头 来 看 公式 (8.1) 和 通过 改变 PCH!) YE DBN 似 然 度 





8 DBN 各 层 联合 优化 中 的 随机 变 分 边界 \ 81 


的 目标 ， 即 保持 P(xclh!) A OCA! lx) Hae, 但 允许 第 二 层 受 限 玻 尔 兹 曼 机 变化 。 
有 趣 的 是 ， 随 着 KL 散 度 项 的 增加 ， 似 然 度 也 会 提高 。 初 始 为 P(h1x) =Q(h'| 
x), KLH 0 ( 即 只 能 增加 ) 并 且 在 公式 (8.1) 中 的 焙 不 依赖 于 DBN 的 
P(h!)。 因 此 ， 带 PC!) 的 项 上 的 小 改进 保证 了 log P(x) 的 增加 。 同 时 ，P(h1) 
项 的 进一步 提高 ( 即 第 二 层 受 限 玻 尔 效 曼 机 的 进一步 训练 ， 下 文 详 述 ) 并 不 会 
使 得 对 数 似 然 度 比 第 二 层 受 限 玻 尔 兹 曼 机 加 入 之 前 小 。 这 完全 是 因为 KL AT 
的 正 性 : 第 二 层 受 限 玻 尔 效 曼 机 的 再 训练 提高 了 对 数 似 然 度 的 下 界 〈( 见 式 
(8.2) ) ， 正 如 在 文献 【73 ] 中 表述 的 那样 。 这 验证 了 训练 第 二 层 受 限 玻 尔 兹 曼 
机 来 最 大 化 第 二 项 的 正确 性 。 这 里 第 二 项 是 训练 集 上 之 0( 如 1 x)log PUR!) 的 
期 望 。 
因此 ， 我 们 训练 第 二 层 受 限 玻 尔 兹 曼 机 来 最 大 化 关于 P(h') 的 如 下 式 子 : 
> P(x) QCh! |x) log P(h!) (8.3) 
T 
上 式 就 是 对 于 一 个 看 到 样本 h ARN ADR FE EIU, A ERER 及 是 从 由 联 
合 分 布 P(x)0(hilx) 推 出 的 册 的 边缘 分 布 中 采样 得 到 的 。 
如 果 我 们 保持 第 一 层 受 限 玻 尔 效 曼 机 不 变 ， 那 么 第 二 层 受 限 玻 尔 效 曼 机 可 以 
按 如 下 步骤 训练 : 从 训练 集中 采样 x， 然 后 再 采样 hi ~Q(h' Ix), BIR YEA 
二 级 受 限 玻 尔 效 曼 机 的 训练 样本 ( 即 作 为 “可 视 ” 向 量 的 观测 值 )。 如 果 对 
P(h!) 没 有 约束 ， 上 述 训练 准则 的 最 大 化 是 其 “经 验 ” 或 目标 分 布 
P* (h!) = ¥ P(x)O(h! Ix) (8.4) 
使 用 同样 的 论述 来 证 明 增 加 第 三 层 ， 以 此 类 推 。 我 们 可 以 按照 第 6. 1 节 得 到 
的 逐 层 贪心 训练 过 程 。 在 实际 中 ， 各 层 的 大 小 交 蔡 性 轮换 的 条 件 并 不 能 得 到 满 
足 。 因 此 ,虽然 用 实验 (在 加 上 了 层 大 小 限制 的 情况 下 ) 来 验证 用 前 一 层 的 权 
重 和 矩阵 转 置 来 初始 化 是 否 会 加 速 训 练 会 很 有 意思 ， 但 是 用 上 一 层 权 重 和 矩阵 的 转 置 
去 初始 化 新 加 的 受 限 玻 尔 效 曼 机 也 不 是 常见 的 做 法 [371 。 
需要 注意 的 是 ， 如 果 我 们 继续 训练 模型 的 顶层 部 分 (这 包括 再 添加 额外 的 
JB), ， 也 不 能 保证 log P(x) (一 般 在 训练 集 上 ) 将 会 单调 增加 。 随 着 我 们 的 下 界 
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继续 提高 ， 实 际 的 对 数 似 然 度 可 能 开始 下 降 。 让 我 们 更 仔细 考察 这 是 如 何 发 生 
的 。 这 将 需要 KL(Q(h lx) | PCA! 1x) ) 项 在 第 二 层 受 限 玻 尔 效 曼 机 继续 训练 的 
时 候 减 小 。 然 而 ， 这 通常 是 不 可 能 的 。 随 着 DBN 中 PC hh!) 越 来 越 偏离 第 一 层 受 
限 玻 尔 兹 曼 机 的 关于 大 的 边缘 分 布 Q( 太 ) ， 后 验 分 布 (请 1xz) (来 自 DBN) 和 
Q(hi ix) (来 自 受 限 玻 尔 效 曼 机 ) 也 可 能 会 互相 偏离 的 越 来 越 远 (因为 P(hi|l 
x) Q(xlh )P(h) , 并且 Q(h Ix)xQ(xlh )Q(h ))。 这 使 得 式 (8.1) 中 的 
KL 项 增 大 。 随 着 第 二 层 受 限 玻 尔 兹 曼 机 的 训练 似 然 度 增加 ，P (ha ) 平 稳 地 从 
Q(h') fle] P*(h')。 因 此 ， 下 面 的 推断 似乎 是 合理 的 : 继续 训练 第 二 层 受 限 玻 
尔 效 曼 机 可 以 提高 DBN 的 似 然 度 (不 只 是 最 初 的 时 候 ) ， 并 且 根 据 传递 性 ， 增 
加 更 多 的 层 也 可 能 提高 DBN 的 似 然 度 。 

然而 ， 如 果 我 们 认为 ， 从 任意 的 参数 设置 开始 ， 增 加 第 二 层 受 限 玻 尔 效 曼 机 
的 训练 似 然 度 都 会 保证 DBN 似 然 度 也 增加 ， 这 个 前 提 其 实 是 不 正确 的 。 因 为 至 
少 我 们 可 以 找到 一 个 病态 反例 (I Sutskever， 个 人 通信 得 到 的 信息 无 正式 参考 文 
献 ) 。 考 虑 下 面 的 情况 : 第 一 层 受 限 玻 尔 兹 曼 机 具有 非常 大 的 隐 层 偏 置 ， 以 至 于 
Q(h' |x) =Q(h') =1p -p =P* (W), 但 有 大 的 权重 和 小 的 可 视 偏 移 使 得 P(x,1h) = 
1, -hn,， 即 隐藏 向 量 被 复制 到 可 视 单元 。 当 用 第 一 层 受 限 玻 尔 兹 曼 机 权重 的 转 置 
来 初始 化 第 二 层 受 限 玻 尔 效 曼 机 的 时 候 ， 第 二 层 受 限 玻 尔 效 曼 机 的 训练 似 然 度 不 
会 被 提高 ，DBN 的 似 然 度 也 不 会 提高 。 尽 管 这 样 ， 如 果 第 二 层 受 限 玻 尔 效 曼 机 
是 从 一 个 “比较 坏 ” 的 参数 设置 开始 (从 其 训练 似 然 度 和 DBN 的 似 然 度 上 来 说 
比较 差 ) ， 则 PCh' ) 将 向 着 P* (Ch!) = 0(h ) 移 动 ， 使 得 第 二 层 受 限 玻 尔 兹 曼 机 
的 似 然 度 提高 而 KL 项 会 降低 ， 并 且 DBN 的 似 然 度 也 会 降低 。 只 要 第 二 层 受 限 玻 
尔 兹 曼 机 使 用 合适 的 初始 化 (复制 第 一 层 RBM) ， 这 些 情况 就 不 会 发 生 。 因 此 ， 
我 们 能 否 找到 可 以 保证 在 第 二 层 受 限 玻 尔 兹 曼 机 似 然 度 增加 的 时 候 ，DBN 的 似 
然 度 也 增加 的 条 件 (除了 以 上 提 到 的 之 外 ) ， 仍 然 是 一 个 未 解决 的 问题 。 

下 面 从 另 一 种 方式 上 解释 贪心 过 程 有 效 的 原因 ( Hinton，NIPS”2007 教 
程 )。 第 二 层 受 限 玻 尔 兹 曼 机 训练 分 布 (从 P* (A ) 中 采样 如 ) 看 起 来 更 像 是 由 
一 个 受 限 玻 尔 兹 曼 机 生成 的 数据 ， 而 不 是 原始 训练 分 布 P(x)。 这 是 因为 
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P* (WEERA P(x) 的 样本 上 使 用 受 限 玻 尔 兹 曼 机 吉 布 斯 链 的 一 个 子 步 又 得 
到 的 ， 并 且 我 们 知道 使 用 多 个 吉 布 斯 步 又 可 以 产生 来 自 那个 受 限 玻 尔 效 曼 机 的 
数据 。 

不 幸 的 是 ， 当 我 们 在 逐 层 贪心 过 程 中 训练 一 个 不 是 DBN 最 顶层 的 受 限 玻 尔 
效 曼 机 时 ， 我 们 并 没有 考虑 到 这 样 一 个 事实 : 为 了 改进 隐藏 节点 的 先 验 概率 ， 我 
们 在 之 后 会 增加 模型 容量 。 文 献 【102 ] 提出 采用 与 对 比 散 度 算法 不 同 的 一 些 蔡 
代 算 法 来 训练 受 限 玻 尔 兹 曼 机 ， 用 于 初始 化 DBN 的 中 间 层 。 具 体 想 法 是 ， 考 虑 
用 一 个 拥有 非常 高 容量 的 模型 (DBN 的 更 高 层 ) 对 P(h) 建 模 。 在 无 限 容量 的 极 
限 情况 下 ， 我 们 可 以 写 下 最 优 的 PC): 通过 第 一 层 受 限 玻 尔 兹 曼 机 (或 者 之 
前 层 的 受 限 玻 尔 效 曼 机 ) 的 随机 映射 0(hlx) 得 到 的 经 验 分 布 上 的 一 个 随机 变 
换 ， 即 第 二 层 情 况 下 , sh (8.4) 中 的 P*。 将 其 代入 log P(x) 的 表达 式 中 , 我 
们 可 以 发 现 用 于 训练 第 一 层 受 限 玻 尔 效 曼 机 的 有 效 准 则 是 数据 分 布 和 经 过 一 步 吉 
布 斯 链 的 随机 重 构 向 量 的 分 布 之 间 的 KL BORE, Sea 证 实 ， 这 一 准则 可 以 对 
用 这 个 受 限 玻 尔 效 曼 机 初始 化 的 DBN 有 更 好 的 优化 。 不 幸 的 是 ， 这 个 准则 不 易 
使 用 ， 因 为 它 涉及 对 隐藏 向 量 严 的 所 有 配置 求 和 。 由 于 这 一 准则 看 起 来 像 是 随 
机 自动 编码 器 (与 降 噪 自动 编码 器 (1”] 相似 的 一 个 生成 模型 ) 的 重 构 误 差 的 一 
种 形式 ， 我 们 可 以 据 此 考虑 一 些 近似 算法 。 另 一 个 有 趣 的 蔡 代 方案 是 直接 在 
DBN 的 所 有 层 上 的 联合 优化 工作 。 这 将 在 下 一 节 进 行 探 讨 。 


8.3 所 有 层 的 联合 无 监督 训练 






































我 们 在 这 里 讨论 怎样 用 无 监督 的 方法 训练 一 个 完整 的 深度 结构 ， 比 如 深度 置 
信 网 络 ， 也 就 是 让 其 很 好 地 来 表达 输入 分 布 。 


8.3.1 Wake -Sleep 算法 


Wake -Sleep 算法 中 | 是 在 训练 sigmoid 置信 网 络 ( 即 这 个 网 络 的 顶层 单元 的 
分 布 可 以 进行 因 式 分 解 ) 的 时 候 提 出 的 。 该 算法 基于 一 个 “识别 ”模型 Chla) 
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(与 其 相伴 的 是 集合 0(x) 作 为 训练 集 分 布 )。 这 个 模型 用 作 生 成 模型 P(h,x) 的 
变 分 近似 。 这 里 我 们 令 h 表示 所 有 的 隐藏 层 。 在 深度 置信 网 络 中 ，Q(hlx) 如 之 
前 所 定义 〈 见 第 6.1), 通过 在 每 一 层 随机 地 向 上 传播 样本 ( 从 输入 层 到 更 高 
层 ) 来 计算 。 在 Wake - Sleep 算法 中 ， 我 们 从 生成 参数 (向 下 权 值 ， 用 于 计算 
P(x1h) ) 中 把 识别 参数 (向 上 权 值 ， 用 于 计算 0(hlx) ) 解 耦 出 来 。 这 个 算法 的 
基本 思想 很 简单 : 

1. Wake 阶段 : 从 训练 集中 采样 x， 生 成 严 ~ Q(hix) 然后 把 (hh,x) 当 作 完全 
可 观察 的 数据 来 训练 P(x1h) 和 P(h)。 这 相当 于 对 下 式 做 一 次 随机 梯度 (下 
降 ) : 




















> Q(h lx) log P(x ,h) (8.5) 
h 
2. Sleep 阶段 : 从 模型 P(x,h) 中 采样 (h,x)， 然 后 把 它 当 作 完 全 可 观察 的 数 
据 来 训练 0(hlx)。 这 相当 于 对 下 式 做 一 次 随机 梯度 (下 降 ) : 


DP(h,x)log Q(h Ix) (8. 6) 
h,x 





假设 一 个 深度 置信 网 络 具有 分 层 结构 (Ch! h, =, hf), Wake 阶段 即 把 nt! 
(从 Q(hlx) 得 到 ) 看 作 顶 层 受 限 玻 尔 效 曼 机 的 训练 数据 ， 随 后 更 新 顶层 的 受 限 
玻 尔 效 曼 机 (ho h ZM), 
变 分 近似 的 思想 可 以 用 来 验证 Wake - Sleep 算法 的 正确 性 。 式 (8.1) 的 对 
数 似 然 度 可 以 分 解 为 
log P(x) = KL(Q(hIx) || P(h1x)) + Horw) + 





> Q(h |x) (log P(h) + log P(x Ih) ) (8.7) 
h 
这 表明 对 数 似 然 的 下 界 由 Helmholtz A FH AE! 9) F 的 相反 数 决 定 : 
log P(x) =KL(Q(hIx) || P(hix)) - F(x) = - F(x) (8.8) 


这 里 

F(x) =- Honey - 2, QCh |x) (log P(h) + log P(x |h)) (8.9) 
并 且 Q =P 时 等 号 成 立 。 变 分 方法 的 基本 思想 是 在 最 大 化 下 界 -的 同时 让 目标 
函数 与 下 界 的 差别 变 小 ， 即 最 小 化 KL(QO(hlx) || P(hlx))。 当 差别 较 小 时 ， 增 
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加 -F(x) 更 有 可 能 造成 log P(x) 的 增加 。 因 为 我 们 把 P 和 0 分 开 处 理 ， 所 以 我 
们 现在 能 够 看 到 Wake 和 Sleep 两 个 阶段 中 分 别 都 发 生 了 什么 。 在 Wake 阶段 中 令 
0 不 变 ， 做 一 次 随机 梯度 更 新 ， 以 最 大 化 训练 集 样本 x 对 应 的 P(x) 在 P 的 参数 
下 的 期 望 ( 即 我 们 不 关心 0 WI). Æ Sleep 阶段 中 ,我 们 理想 情况 下 是 想 让 0 
尽量 与 P 相 同 ， 从 而 让 KL(QChlx) || P(hlix)) (BI Q 为 基准 ) 最 小 。 但 是 由 
于 KL(Q(hlx) || P(hlx) ) 不 可 计算 ， 我们 转 而 最 小 化 KL(P(h,x) || Q(h,x)), 
以 P 为 基准 。 








8.3.2 ”将 深度 置信 和 网 络 转 换 为 玻 尔 兹 曼 机 


最 近 提 出 的 另 一 个 方法 ， 在 评测 后 发 现 能 够 生成 比 Wake - Sleep 算法 更 好 的 
结果 [91 。 正 如 第 6. 1 节 讨 论 过 的 ， 将 各 层 当 作 受 限 玻 尔 兹 曼 机 进行 初始 化 后 ， 
深度 置信 网 络 被 转换 成 了 一 个 相应 的 深度 玻 尔 效 曼 机 。 由 于 玻 尔 效 曼 机 的 每 个 神 
经 元 同时 从 上 层 和 下 层 接收 输入 ， 在 采用 受 限 玻 尔 效 曼 机 逐 层 构建 深度 玻 尔 效 曼 
机 时 ， 人 们 提出 应 该 将 受 限 玻 尔 兹 曼 机 的 权重 值 折 半 。 有 意思 的 是 ， 深 度 玻 尔 兹 
曼 机 中 的 受 限 玻 尔 兹 曼 机 初始 化 对 于 能 否 得 到 好 的 结果 至 关 重要 。 因 此 作者 们 提 
出 了 玻 尔 效 曼 机 中 正 相 和 负 相 梯度 计算 的 近似 方法 ( 见 第 5.2 节 及 式 (5. 16) ) 。 

对 于 正 相 阶 段 (原则 上 是 固定 x 后 ， 对 P(hlx) 进行 采样 ) ， 他 们 提出 了 一 
种 平均 场 松 弛 的 变 分 近似 (传播 给 定 其 他 神经 单元 时 每 个 神经 单元 的 条 件 概率 ， 
而 不 是 采样 得 到 的 数据 样本 ， 并 且 迭 代 几 十 次 后 使 得 它们 趋 于 稳定 ) 。 对 于 负 相 
阶段 (原则 上 需要 从 联合 概率 Ph, x) 中 采样 ) ， 他 们 提出 了 使 用 在 第 5. 4. 1 9 
中 讨论 过 的 ， 并 在 文献 [187] 中 引入 的 持续 性 蒙特 卡 罗 马 尔 可 夫 链 的 思想 。 这 
个 思想 是 保持 一 个 (h,x) 状 态 (或 者 是 粒子 ) 的 集合 ， 它 使 用 基于 目前 模型 的 一 
个 吉 布 斯 链 步 长 进行 更 新 ( 即 根 据 每 个 神经 元 在 给 定 前 一 步 中 其 他 神经 单元 的 
条 件 概 率 分 布 ， 对 每 个 神经 单元 进行 采样 )。 即 使 参数 一 直 在 非常 慢 的 变化 ,我 
们 仍 继续 使 用 一 样 的 马尔 可 夫 链 而 不 去 重新 构建 一 个 新 的 (正如 传统 玻 尔 兹 曼 
机 算法 做 的 那样 (71 761), 

这 个 方法 似乎 效果 很 好 。 文 献 [161] 报告 了 在 MNIST 数据 集 上 相对 深度 置 
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信和 网 络 在 两 个 指标 上 的 改进 。 这 两 个 指标 分 别 是 数据 对 数 似 然 度 (使 用 退火 重 
HERRUS 进行 评估 ) 和 分 类 错误 率 (在 有 监督 的 精 调 之 后 ) 。 其 中 ， 错 误 率 
可 以 从 1.2% 降 到 0.95%。 文献 [111] 也 将 训练 过 的 深度 置信 和 网络 转化 为 深度 
玻 尔 兹 曼 机 以 便于 从 中 得 到 采样 ， 这 里 的 深度 置信 网络 是 卷 积 结 构 。 





9.1 全 局 优化 策略 











正如 第 4.2 节 中 所 讨论 的 ， 在 深度 结构 中 使 用 逐 层 的 局 部 的 无 监督 预 训练 会 
产生 更 好 的 泛 化 能 力 。 部 分 的 解释 是 : 更 好 的 无 监督 模型 相关 的 参数 空间 初始 化 
监督 训练 ， 帮 助 它们 更 好 地 优化 了 低层 (接近 输入 端 )。 类 似 地 ， 如 果 要 达到 文 
HR [161] 中 所 描述 的 好 的 结果 ， 很 重要 的 一 点 是 将 深度 玻 尔 兹 曼 机 的 每 一 层 当 
作 一 个 受 限 玻 尔 效 曼 机 进行 初始 化 。 在 两 种 配置 中 ， 在 对 整个 深度 结构 进行 精 调 
之 前 ， 我 们 都 是 对 每 一 层 以 某 种 局 部 的 准则 分 别 进行 优化 。 

根据 延 拓 法 ( Continuation Method) B! 的 原则 ， 我 们 找到 了 现 有 工作 与 一 些 
困难 的 优化 问题 之 间 的 联系 。 这 些 方法 虽然 不 能 保证 获得 全 局 最 优 解 ， 但 是 在 一 
些 领域 ， 例 如 计算 化 学 里 ， 这 些 方法 在 寻找 复杂 的 分 子 结构 等 优化 问题 的 近似 解 
时 尤其 有 用 [35 ,1,2%] 。 其 基本 思想 是 ， 首 先 解决 一 个 经 过 简化 的 平滑 版 本 的 问 
题 ， 然 后 再 渐渐 考虑 不 那么 平 请 的 情况 ， 这 就 像 我 们 在 模拟 退火 算法 中 所 做 的 那 
样 [3] 。 直 觉 上 来 讲 , 平滑 版 本 的 问题 将 会 展示 问题 的 全 貌 。 可 以 定义 一 个 单 参 
数 的 损失 函数 族 C (90) ， 其 中 Cy 可 以 被 更 容易 地 优化 (在 9 中 可 能 是 凸 的 )， 
同时 C, 是 我 们 真正 想 去 最 小 化 的 标准 。 首 先 最 小 化 C0(0) ， 然 后 渐渐 地 增加 A, 
同时 保持 9 是 C, (09) 的 局 部 极 小 值 (Local Minima), if Cy 是 C, 的 高 度 平 滑 版 
本 ， 因 此 9 也 会 渐渐 移动 被 吸引 到 C 中 一 个 主要 的 极 小 值 点 的 吸引 域 (也 许 不 
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是 全 局 的 ) 。 


9.1.1 从 拓 延 法 角度 看 待 深度 置信 网 络 的 逐 层 贪心 训练 





第 6. 1 节 中 描述 了 基于 深度 置信 网络 的 逐 层 贪心 训练 算法 。 下 面 的 介绍 将 这 
种 算法 看 作 一 个 近似 的 拓 延 法 。 

首先 回忆 第 8. 1 节 所 描述 的 深度 置信 和 网络 的 顶层 受 限 玻 尔 兹 曼 机 可 以 被 展开 
成 一 个 绑 定 参数 的 无 限 有 向 图 模型 。 在 逐 层 贪心 过 程 的 每 一 步 中 ， 我 们 解除 顶层 
RBM 参数 和 倒数 第 二 层 的 参数 的 绑 定 。 所 以 ， 可 以 像 下 面 这 样 看 待 这 个 逐 层 步 
DE: 模型 结构 保持 不 变 ， 它 是 一 个 无 限 长 sigmoid 置信 层 的 链 ， 但 是 在 逐 层 步骤 
中 改变 参数 的 约束 。 初 始 时 所 有 的 层 都 是 绑 定 的 。 在 训练 完了 〈 即 在 约束 条 件 
下 进行 优化 ) 第 一 个 RBM 之 后 ， 我 们 将 解除 第 一 层 的 参数 与 其 他 参数 之 间 的 约 
束 。 在 训练 完 (在 稍微 放宽 的 一 些 的 约束 条 件 进行 优化 ) 第 二 个 RBM 之 后 , 我 
们 解除 第 二 层 参数 与 其 他 参数 之 间 的 约束 ， 以 此 类 推 。 

不 同 于 一 个 连续 的 训练 标准 ， 我 们 有 一 个 离散 的 逐渐 变 困 难 的 优化 问题 序 
列 。 通 过 将 这 个 过 程 变 成 贪心 算法 ,我 们 在 前 层 训 练 结束 之 后 ， 固 定 住 前 和 层 
的 参数 ， 只 优化 第 上 +1 层 ， 即 训练 一 个 RBM。 为 了 做 严格 的 类 比 ， 我 们 需要 用 
前 一 层 的 权重 的 转 置 初始 化 新 加 入 的 层 的 权重 。 还 要 注意 逐 层 贪心 的 方法 只 优化 
新 层 的 参数 ， 而 不 会 优化 所 有 参数 。 

即使 上 述 分 析 采 用 了 很 多 近似 ， 它 仍然 给 出 了 逐 层 贪心 方法 为 何 能 得 到 更 好 


的 结果 的 一 个 解释 。 
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9.1.2 无 监督 向 有 监督 的 转变 


很 多 论文 中 的 实验 都 清楚 地 表明 无 监督 预 训练 加 上 有 监督 训练 的 精 调 对 于 次 
度 结构 有 非常 好 的 效果 。 尽 管 之 前 在 合并 有 监督 学 习 和 无 监督 学 习 准 则 的 工作 侧 
重 于 在 无 监督 学 习 的 准则 中 加 入 正则 项 〈 以 及 在 半 监 督学 习 中 加 入 无 标注 的 数 
据 ) [0 ， 第 4. 2 节 中 的 讨论 揭示 了 ， 深度 网 络 的 无 监督 预 训练 所 带 来 的 改进 其 
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实 部 分 的 来 源 于 深度 结构 中 的 低层 部 分 有 更 好 的 优化 。 

很 多 研究 工作 着 重 于 先 采 用 无 监督 表示 学 习 (比如 稀疏 编码 )， 然 后 用 判别 
准则 精 调 或 者 结合 判别 准则 和 无 监督 准则 对 这 个 学 习 到 的 表示 进行 精 
PALS 97, 211 。 

在 文献 [97] 中 ,一 个 RBM 使 用 由 两 部 分 组 成 的 可 视 向 量 来 完成 训练 。 可 视 
向 量 这 两 部 分 包括 输入 x 和 目标 类 别 y。 这 样 一 个 RBM 可 以 用 两 种 方式 训练 : 对 
联合 概率 分 布 P(x,y) 进行 训练 (如 通过 对 比 散 度 算法 ) 或 者 对 条 件 概率 P(ylx) 
进行 建 模 (精确 的 条 件 对 数 似 然 的 梯度 是 可 以 求 得 的 )。 在 文献 [97] 中 报告 了 结 
合 两 种 准则 之 后 的 最 好 结果 , 但 是 这 个 模型 使 用 了 非 判 别 准则 来 初始 化 。 

在 文献 [6, 121] 中 ， 稀 琉 编 码 系统 中 训练 解码 器 基底 的 任务 与 在 稀 琉 编码 
上 训练 分 类 器 的 任务 被 结合 在 一 起 。 在 使 用 非 判 别 学 习 初始 化 解码 器 基底 之 后 ， 
可 以 使 用 判别 准则 对 稀 朴 表示 的 相关 参数 ( 即 产生 稀 玻 编码 的 第 一 层 的 基底 ) 
和 一 组 分 类 器 的 参数 (例如 ， 一 个 将 表示 码 作为 输入 的 线性 分 类 器 ) 进行 联合 
精 调 。 根 据 文献 [121] ， 尝 试 直接 优化 有 监督 准则 且 不 预先 使 用 非 判 别 准则 初 
始 化 ， 会 导致 非常 差 的 性 能 。 实 际 上 ， 这 篇 文章 提出 了 一 个 由 非 判 别 准则 到 判别 
准则 的 平滑 过 渡 ， 也 即 采用 延 拓 法 的 思想 去 优化 判别 准则 。 

















9.1.3 温度 控制 





即使 只 优化 一 个 单 层 RBM 的 对 数 似 然 ， 也 可 能 是 一 个 棘手 的 事情 。 事 实证 明 
随机 梯度 下 降 的 使 用 (比如 对 比 散 度 算法 ) 和 较 小 的 初始 权重 也 与 延 拓 法 很 类 似 ， 
并 且 很 容易 转变 成 延 拓 法 。 考 虑 对 应 于 RBM 的 正则 路 径 ![ 反 ] 的 一 族 优化 问题 ， 比 
如 使 用 参数 的 L 范 数 作为 正则 项 ， 以 As (0,1] 为 参数 得 到 的 一 族 训 练 函 数 : 

cC, (0) =- > log P,(x;) - || @||7log A (9.1) 

当 A0 的 时 候 ， 有 0-0， 并 且 可 以 证 明 RBM 的 对 数 似 然 度 会 变 成 8 的 凸 
函数 。 当 A 一 1 的 时 候 ， 没 有 正则 项 〈 注 意 当 训练 集 特别 小 的 时 候 ， 有 些 A 的 中 
间 值 可 能 更 有 利于 泛 化 ) 。 控 制 RBM 的 偏 置 和 权重 的 大 小 等 价 于 在 一 个 玻 尔 效 








90 ) 人 工 智能 中 的 深度 结构 学 习 





曼 机 中 控制 温度 (“ 温 度 ” 是 一 个 能 量 函 数 的 缩放 系数 ) 。 高 温 对 应 于 高 度 随 机 
化 的 系统 。 极 限 情况 下 ， 它 是 一 个 输入 上 的 阶乘 式 的 均匀 分 布 。 低 温 对 应 于 更 确 
定 的 系统 ， 这 种 情况 下 只 有 很 少 的 可 行 配 置 是 有 意义 的 。 

有 趣 的 是 ， 我 们 通常 可 以 观察 到 使 用 较 小 的 权重 初始 化 的 随机 梯度 下 降 渐渐 
地 允许 权重 的 幅度 增加 ， 这 样 可 以 近似 地 沿 着 正则 路 径 优化 。 提 前 终止 是 一 个 众 
所 周知 而 且 高 效 的 模型 容量 控制 策略 ， 其 基于 训练 过 程 中 在 验证 集 上 监控 的 性 
能 ， 保 持 在 验证 集 误 差 上 的 最 好 的 参数 。 提 前 终止 与 2 范 数 正 则 化 〈 连 同 间隔 
最 大 化 ) 的 数学 关联 已 经 被 提出 :535201 : 从 较 小 的 参数 开始 进行 梯度 下 降 产 生 

逐渐 大 的 参数 ， 对 应 于 渐渐 变 小 的 正则 化 训练 标准 。 然 而 ， 如 果 使 用 常规 随机 梯 
度 下 降 (没有 明确 的 正则 项 ) ， 则 无 法 保证 能 够 追踪 一 系列 与 式 (9.1) 中 入 值 
相关 的 局 部 极 小 值 。 通 过 显 式 地 控制 入， 对 随机 梯度 下 降 算法 进行 一 些微 小 的 修 
改 可 能 会 让 它 更 好 地 追踪 正则 路 径 ( 即 让 它 更 接近 延 拓 法 )。 对 于 当前 入， 当 优 
化 过 程 足够 接近 局 部 最 优 解 时 ， 逐 渐 增 加 入 的 值 。 注 意 ， 相 同 的 技巧 可 能 可 以 
拓展 到 其 他 的 机 器 学 习 领 域 解决 困难 的 优化 问题 ， 比 如 训练 一 个 次 度 监 督 神经 网 
络 。 我 们 乔 望 从 一 个 全 局 最 优 解 开始 ， 然 后 逐渐 追踪 局 部 极 小 值 ; 从 很 大 的 正则 
项 开始 ， 逐 渐变 成 很 小 的 正则 项 或 者 没有 。 












































9.1.4 E. 课程 式 的 训练 


男 一 种 延 拓 法 是 : 逐渐 转变 训练 任务 ， 使 其 从 一 个 简单 的 任务 〈 其 中 样本 
能 表达 更 简单 的 概念 ， 通 常 是 凸 的 ) 到 目标 任务 (有 更 复杂 的 样本 ) 。 人 类 需要 
20 年 才能 训练 成 为 适应 社会 的 成 人 个 体 。 这 种 训练 是 高 度 组 织 化 的 ， 它 依赖 于 

个 教育 系统 和 一 套 课程 ， 这 些 课程 在 不 同时 间 引 入 不 同 的 概念 ， 并 利用 之 前 所 
学 的 概念 使 学 习 新 的 抽象 概念 更 容易 。 
通过 一 套 “ 课 程 ”去 训练 一 个 学 习 机 器 的 思想 可 以 追溯 到 文献 [49]。 最 基 
础 的 想法 是 从 小 入 手 ， 即 先 学 习 一 个 任务 中 较 容易 的 某 个 方面 或 者 学 习 更 简单 的 
子 任务 ,然后 渐渐 增加 难度 等 级 。 从 建立 表示 的 观点 来 看 ， 这 里 提出 的 基本 思想 
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是 : 首先 学 习 能 抓 住 浅 层 抽象 的 表示 ， 然 后 进行 组 合 ， 去 学 习 揭 示 数 据 中 更 复杂 
的 结构 所 必 备 的 稍微 高 阶 一 些 的 抽象 。 通 过 选择 哪些 训练 数据 应 该 被 利用 以 及 采 
用 何 种 顺序 去 使 用 ， 我 们 可 以 有 效 的 指导 训练 过 程 并 且 显著 提升 学 习 速 度 。 这 个 
想法 通常 用 在 “动物 训练 ”中 ， 并 且 被 称 为 “ 塑 形 "'%”, 77) 。 

塑 形 以 及 课程 的 使 用 也 能 被 当 作 延 拓 法 。 下 面 讨论 将 这 种 延 拓 法 用 于 一 个 学 
习 问 题 : 对 于 训练 集 的 数据 分 布 户 进行 建 模 。 这 个 想法 就 是 从 训练 集 的 数据 分 
布 中 重新 确定 采样 的 概率 权重 ， 根 据 给 定 的 学 习 计 划 ， 由 一 个 最 简单 的 样本 开 
始 ， 逐 渐 向 展现 更 高 阶 抽象 的 样本 移动 。 在 计划 的 上 时刻， 我 们 从 分 布 己 开始 
WI, AP, =P, BP BGA TAT EAN. 与 很 多 延 拓 法 一 样 ， 
当 学 习 者 在 1 时 刻 触 碰 到 一 个 局 部 极 小 值 的 时 候 ， 即 它 已 经 足够 了 解 之 前 的 样本 
(从 PP, 中 采样 得 到 ), 则 进入 计划 表 中 的 下 一 个 时 刻 。 当 训练 分 布 中 采样 样本 的 
概率 有 了 平滑 的 改变 时 ， 对 上 时刻 的 分 布 也 做 出 小 的 改变 ， 由 此 我 们 构造 出 了 一 
条 始 于 简单 的 学 习 问 题 ， 结 束 于 期 望 的 训练 分 布 的 连续 路 径 。 这 个 想法 后 来 在 文 
献 [20] 中 得 到 发 展 。 实 验 显 示 ， 在 视觉 和 语言 领域 ， 相 较 于 只 在 目标 分 布 上 训 
练 ， 使 用 课程 训练 目标 分 布 有 更 好 的 泛 化 能 

逐 层 贪心 和 塑 形 /课程 的 思想 之 间 有 一 定 的 关联 。 在 两 种 情况 中 ， 我 们 都 希 
望 利 用 同样 的 原理 ， 即 一 旦 学 好 合适 的 低 阶 抽象 ， 高 阶 抽象 可 以 更 方便 地 学 习 。 
在 逐 层 方法 中 ， 这 一 点 是 由 基于 已 经 学 习 的 低 阶 概念 逐渐 增加 模型 容量 做 到 的 。 
我 们 控制 训练 样本 ， 使 得 在 涉及 更 高 级 概念 的 样本 出 现 之 前 ， 保 证 简单 的 概念 已 
经 学 会 了 。 就 像 人 类 在 没有 先 理 解 基础 概念 之 前 很 难 掌握 一 个 新 的 想法 ， 展 现 更 
高 级 的 复杂 概念 很 可 能 只 是 在 浪费 时 间 。 

采用 “课程 ”的 思想 ， 除 了 学 习 者 和 训练 数据 的 分 布 ， 或 者 环境 之 外 ,我 
们 还 引入 了 一 个 “老师 ”。 老 师 可 以 使 用 两 种 来 源 的 信息 在 日 程 表 上 做 安排 : 
(D 对 于 概念 序列 的 先 验 知识 ， 当 它们 以 哪 种 方式 呈现 时 会 更 好 得 被 学 习 。 避 监视 
学 习 者 的 学 习 进度 ， 去 决定 何 时 继续 课表 中 的 新 知识 。 老 师 有 必要 选择 新 样本 的 
难度 等 级 : 在 “ 太 简 单 ”( 学 习 者 不 需要 改变 模型 就 能 解决 这 些 例 子 ) 和 “ 太 困 
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难 ”( 学 习 者 在 解释 这 些 例 子 方面 不 能 做 出 进一步 的 改变 ， 因 此 它们 最 有 可 能 
当 作 异常 值 或 者 特例 ， 不 利于 汉化 ) 之 间 进 行 折 中 。 


9.2 无 监督 学 习 的 重要 性 


本 书 的 一 个 论点 是 ， 强 大 的 无 监督 或 半 监 督学 习 (或 自学 习 ) 是 建立 面向 
人 工 智能 的 深度 结构 学 习 算 法 的 至 关 重要 的 部 分 之 一 。 下 面 简要 列举 了 支持 这 一 
观点 的 论据 : 

。 有 标注 数据 的 稀缺 性 和 无 标注 数据 的 广泛 存在 (可 能 不 仅 限于 感 兴趣 的 
目标 类 别 ， 正 如 自学 习 [%] 中 的 那样 ) 。 

。 未 知 的 未 来 任务 : 如 果 一 个 学 习 机 器 并 不 知道 未 来 需要 应 对 的 学 习 任务 
是 什么 样 的 ， 但 知道 这 一 任务 将 定义 在 某 个 外 界 环 境 里 ( 即 可 观测 的 随机 变量 
上 ) ， 那 么 尽 可 能 地 收集 和 融合 关于 那个 环境 下 的 信息 以 便 学 习 其 运行 机 制 是 非 
常 合理 的 。 

e 一 且 学 习 到 了 很 好 的 高 层 表 示 ， 其 他 学 习 方 法 (比如 有 监督 或 强化 学 习 ) 
将 会 非常 简单 。 例 如 ， 我们 知道 核 机 器 (Kernal Machine) 如 果 使 用 合适 的 核 
( 即 特征 空间 ) ， 它 将 会 非常 有 效 。 类 似 地 ， 在 反馈 动作 可 以 通过 对 合适 的 特征 
进行 线性 组 合 来 获取 的 情况 下 ， 我 们 知道 强化 学 习 是 有 保障 的 。 我 们 并 不 知道 合 
适 的 表示 应 该 是 什么 样子 ， 但 是 当 它 捕捉 到 输入 数据 变化 中 的 显著 特点 并 将 其 分 
离 出 来 ， 那 么 我 们 可 以 认为 这 是 一 种 有 效 表 达 。 

。 逐 层 无 监督 学 习 : 我 们 在 第 4. 3 节 进 行 了 详 述 。 大 部 分 学 习 可 以 使 用 一 
个 层级 或 者 子 层 的 局 部 可 用 信息 来 进行 ， 因 此 避免 了 之 前 讨论 过 的 有 监督 学 习 中 
可 能 出 现 的 梯度 传递 问题 ， 即 大 的 扇 入 元 素 在 长 链 中 的 梯度 传递 问题 。 

。 结合 之 前 的 两 个 观点 ， 无 监督 学 习 可 以 将 有 监督 或 强化 学 习 的 参数 放置 
在 一 个 通过 梯度 下 降 (局 部 优化 ) 可 以 得 到 较 好 结果 的 区 域 上 。 在 几 个 场景 
该 观点 都 已 被 经 验 性 的 验证 ， 特 别 是 图 4. 2 中 的 实验 以 及 文献 [17, 98, 50], 

。 在 优化 问题 上 加 入 额外 的 约束 条 件 会 有 助 于 避免 泛 化 能 力 明 显 很 差 的 局 
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部 极 值 ( 即 没有 对 输入 分 布 进 行 较 好 的 建 模 ) ， 这 些 约束 条 件 应 当 要 求 模型 不 仅 
捕捉 输入 到 输出 的 关联 ， 而 且 获 取 输入 分 布 中 的 统计 规律 。 注 意 ， 通 常 额外 的 约 
柬 条 件 也 会 引入 更 多 的 局 部 极 值 ， 但 我 们 在 实验 中 观察 到 :7] ， 无 监督 的 预 训练 
可 以 减少 训练 和 测试 误差 ， 这 也 表明 无 监督 学 习 可 以 将 参数 空间 移动 到 特殊 的 区 
BR, 这 个 区 域 中 的 局 部 极 值 对 应 于 一 个 较 好 的 特征 表示 。 文 献 [71] 认为 (但 
未 成 定论 ) ， 无 监督 学 习 比 有 监督 学 习 更 不 易 出 现 过 拟 合 。 深 度 结构 通常 用 于 建 
立 一 个 有 监督 分 类 咒 ， 在 这 种 情况 下 无 监督 学 习 模 块 显 然 可 以 被 视 为 一 个 正则 化 
项 或 一 种 先 验 W137,109, 118, 50] ， 以 使 得 最 终 得 到 的 模型 参数 不 仅 在 给 定 输入 数据 上 
建 模 较 好 ， 同 时 还 可 以 捕捉 输入 的 概率 分 布 的 结构 。 


9.3 开放 的 问题 








针对 深度 结构 的 研究 目前 仍 不 充分 ， 仍 有 许多 问题 等 待 解决 。 以 下 就 包括 一 
些 可 能 很 有 意义 的 问题 : 

1. 电路 中 计算 深度 的 成 果 能 和 否 推广 到 逻辑 门 和 线性 阔 值 单元 之 外 ? 

2. 是 否 存在 一 个 基本 够 用 的 深度 ， 用 来 接近 人 类 在 AI 任务 上 的 能 力 ? 

3. 关于 固定 输入 大 小 的 电路 深度 的 理论 结果 ， 如 何 推 广 到 基于 递归 计算 的 
时 变动 态 电路 上 ? 

4. 为 什么 基于 梯度 的 深度 神经 网 络 训练 使 用 随机 初始 化 时 通常 不 成 功 ? 

5. 基于 对 比 散 度 方法 训练 的 RBM 是否 能 很 好 地 保持 输入 数据 的 信息 ( 因为 
它们 并 不 像 自 编码 器 那样 训练 ， 它 们 将 会 丢失 一 些 最 终 可 能 是 有 用 的 信息 ); 如 
果 不 能 ， 那 能 如 何 弥补 ? 

6. 深度 结构 的 有 监督 训练 准则 〈 比 如 在 深度 玻 尔 兹 曼 机 和 DBN 中 的 对 数 域 
似 然 度 ) 是 否 充满 了 局 部 极 小 值 ? 或 者 仅 是 针对 该 准则 的 优化 算法 过 于 复杂 而 
RGF (EUERE FERH BS EIS ) 2 

7. 局 部 最 优 的 存在 是 否 是 RBM 训练 中 的 一 个 主要 问题 ? 

8. 是 否 存在 一 个 算法 可 以 替换 受 限 玻 尔 效 曼 机 和 上 自 编码 器 ? 这 样 的 算法 能 
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更 好 地 提取 有 效 的 特征 表示 ， 同 时 其 优化 算法 更 简单 (甚至 可 能 是 是 优化 ) 。 

9. 当前 的 深度 结构 训练 算法 包含 了 许多 阶段 〈 逐 层 训 练 ， 加 上 最 后 统一 进 
行 精 调 ) 。 这 在 完全 在 线 环境 下 并 不 现实 ， 因 为 一 旦 开始 进行 精 调 ， 将 会 陷入 一 
个 明显 的 局 部 极 小 值 。 是 否 可 以 提出 一 个 包含 无 监督 学 习 模 块 的 完全 在 线 优 化 的 
方式 来 训练 深度 结构 ? 注意 , 文献 [202] 正在 做 相关 的 研究 。 

10. 在 对 比 散 度 训练 中 是 否 应 该 对 吉 布 斯 采样 的 步 长 进行 调整 ? 

11. 将 计算 时 间 考 虑 在 内 的 情况 下 ， 我 们 是 否 还 能 明显 改善 对 比 散 度 方法 ? 
最 近 有 些 新 替代 方法 被 提出 ， 值 得 进一步 研究 [51571881 。 

12. 除了 重建 误差 ， 是 和 否 还 有 更 合适 的 方法 来 对 RBM 和 DBN 的 训练 进行 控 
制 ? 相应 地 ， 在 RBM 和 DBN 中 是 否 存在 可 控 的 配 分 函数 的 近似 形式 ? 最近， 采 
用 退火 重要 性 采样 方法 的 研究 结果 取得 了 邻 人 鼓舞 的 进展 ,133]， 

13. RBM 和 自 编码 器 是 否 可 以 通过 引入 对 学 习 表 示 的 稀疏 程度 的 惩罚 项 加 
以 改进 ? 最 好 的 做 法 是 怎样 的 ? 

14. 如 果 不 增加 隐藏 层 节 点 数 ，RBM 模型 的 容量 是 否 可 以 通过 使 用 非 参 数 化 
形式 的 能 量 函 数 以 得 到 增强 ? 

15. 由 于 我 们 对 单一 去 噪 自 编码 器 只 有 一 个 生成 模型 的 版 本 ， 是 否 存在 对 堆 
友 自 编码 器 和 堆 县 去 噪 自 编 码 器 模型 的 一 个 概率 解释 ? 

16. 在 DBN 中 进行 逐 层 贪心 训练 ( 即 最 大 化 训练 数据 似 然 度 ) 的 效率 怎么 
样 ? 这 种 方法 是 否 会 过 于 贪心 ? 

17. 针对 DBN 和 相关 深度 生成 模型 的 对 数 似 然 度 梯度 ， 是 否 能 得 到 低 方 差 
和 低 偏差 的 佑 计 方 法 ， 是 否 可 以 联合 训练 所 有 层 (用 无 监督 的 目标 函数 )? 

18. 本 书 讨论 的 无 监督 的 逐 层 训练 方法 可 以 帮助 训练 深度 结构 ， 但 是 实验 显 
示 训 练 仍然 会 陷入 明显 的 局 部 极 值 ， 因 此 不 能 够 很 好 的 利用 大 数据 集中 的 全 部 信 
息 。 这 种 观点 是 否 正 确 ? 我 们 是 否 可 以 开发 更 强大 的 对 深层 结构 的 优化 策略 来 突 
破 这 些 限 制 ? 

19. 基于 延 拓 方法 的 优化 策略 是 否 可 以 在 训练 深度 结构 时 明显 改善 性 能 ? 

20. 除了 深度 置信 网 络 、 堆 番 自 动 编码 器 、 深 度 玻 尔 兹 曼 机 ， 是 否 还 存在 其 
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他 可 以 有 效 训练 的 深度 结构 ? 

21. 一 些 高 级 抽象 概念 往往 花费 人 类 数 年 或 数 十 年 来 学 习 。 是 否 需 要 一 个 课 
程 来 学 习 各 种 这 样 的 高 级 抽象 概念 ? 

22. 在 训练 深度 结构 中 发 现 的 准则 是 否 能 被 应 用 和 推广 到 训练 循环 网 络 和 动 
态 置信 网 络 中 ?这 类 网 络 对 上 下 文 和 较 长 依赖 关系 进行 学 习 。 

23. 由 于 信息 的 维度 大 小 和 结构 具有 可 变性 ( 比如 树 和 图 结构 )， 某 些 信息 
不 太 容 易 用 向 量 表示 。 那 么 深度 结构 如 何 推广 以 表示 这 些 直观 上 并 不 容易 表示 的 
信息 ? 

24. 虽然 深度 置信 网 络 在 本 质 上 非常 适合 半 监 督 和 自学 习 场 景 ， 但 将 当前 的 
深度 学 习 算 法 应 用 于 这 些 场景 的 最 好 方式 仍 有 等 探索。 另外 ， 与 现 有 半 监 督 算 法 
的 比较 ， 它 们 表现 如 何 ? 

25. 当 有 标注 数据 存在 时 ， 有 监督 和 无 监督 学 习 的 准则 如 何 结合 以 便 更 好 地 
学 习 模 型 输入 的 学 习 表 示 ? 

26. 对 比 散 度 和 深度 置信 网络 学 习 在 计算 上 ， 是 否 可 以 找到 对 应 于 人 脑 运 转 
中 的 实际 过 程 ? 

27. 大 脑 皮 层 与 前 馈 人 工 神经 网 络 的 一 个 区 别 点 在 于 存在 显著 的 反馈 连接 
(比如 ， 从 视觉 处 理 后 期 阶段 中 反馈 到 视觉 处 理 早期 阶段 ) ， 这 样 的 连接 不 仅 在 
学 习 过 程 起 作用 (如 在 RBM 中 ) ， 而 且 对 融合 视觉 证 据 与 前 后 文 信息 的 先 验 知 
WA FAME) 。 什 么 样 的 模型 能 在 深度 结构 中 产生 这 样 的 交互 过 程 ， 并 合理 地 采 
用 这 样 的 方式 学 习 ? 



























































本 书 的 开始 部 分 图 述 了 使 用 深度 结构 的 动机 。 首 先 ， 本 书 论述 了 使 用 学 习 算 
法 来 解决 人 工 智能 任务 的 方式 ， 然 后 从 直观 的 角度 探讨 了 将 学 习 问 题 转化 为 多 层 
级 的 计算 和 表示 形式 的 合理 性 。 在 接着 的 理论 分 析 中 显示 ， 当 没有 使 用 足够 层级 
的 架构 做 计算 时 ， 计 算 元 素 的 需求 会 是 庞大 的 。 我 们 也 注意 到 在 学 习 高 可 变 函 数 
(Highly Varying Function) 时 ， 只 依赖 局 部 泛 化 的 学 习 算法 不 大 可 能 有 好 的 泛 化 
能 力 。 

在 讨论 深度 结构 和 算法 之 前 ， 我 们 先 说 明了 使 用 分 布 式 的 表示 来 表达 数据 的 
动因 。 这 种 表征 形式 不 但 让 输入 的 抽象 特征 拥有 大 的 可 行 域 成 为 可 能 ， 而 且 允 许 
系统 能 紧凑 地 表示 每 个 样本 。 同 时 ， 它 也 打开 了 通 向 拥有 更 多 一 般 化 形式 的 途 
径 。 紧 接着 本 书 详细 讨论 了 如 何 通过 训练 深度 结构 来 成 功 地 学 习 多 个 层级 上 的 分 
布 式 表示 。 尽 管 在 这 种 深度 结构 中 标准 的 梯度 算法 失效 的 原因 还 有 待考 察 ， 但 近 
年 来 引入 的 几 个 算法 表现 出 了 比 这 种 简单 梯度 优化 算法 更 好 的 性 能 。 男 外 ， 也 解 
释 了 这 些 算法 之 所 以 有 效 的 基本 原理 。 

虽然 这 本 书 大 部 分 专注 于 深度 神经 网 络 和 深度 图 模型 结构 ,但 是 探索 深度 结 
构 中 的 学 习 算 法 应 该 超越 神经 网 络 框架 。 举 个 例子 来 说 ， 考 虑 使 用 多 层级 的 想法 
来 扩展 决策 树 算 法 和 助 推算 法 (Boosting) 将 是 非常 有 意义 的 。 

核 学 习 算 法 是 另 一 条 值得 探索 的 方向 。 这 是 因为 ， 能 捕获 目标 分 布 特性 的 抽 
象 表示 的 特征 空间 也 正 是 适合 使 用 核 机 天方 法 的 空间 。 这 个 方向 的 研究 应 考虑 学 
到 的 核 函 数 能 够 有 非 局 部 的 泛 化 能 力 。 这 样 可 以 避免 当 试 图 学 习 高 可 变 函 数 时 出 
现在 3. 1 节 中 提 到 的 维 数 灾难 。 


















































本 书 侧重 于 讨论 一 类 特定 的 算法 一 一 深度 置信 网 络 。 它 的 组 成 元 素 : 受 限 玻 
尔 兹 曼 机 ， 以 及 其 近亲 :不同 种 类 的 可 以 堆 秋 在 一 起 形成 一 个 深度 结构 的 自动 编 
码 右 。 对 于 受 限 玻 尔 兹 曼 机 ， 我 们 通过 讨论 对 数 似 然 梯度 的 估计 子 之 间 的 关系 ， 
验证 了 训练 时 使 用 对 比 散 度 更 新 的 正确 性 。 

我 们 着 重 阐述 了 一 种 在 深度 置信 网 络 和 相关 的 堆 秋 自动 编码 器 中 表现 良好 的 
优化 原则 。 这 种 优化 原则 是 对 于 模型 的 每 一 层 使 用 贪心 式 的 逐 层 无 监督 初始 化 。 
我 们 发 现 ， 这 种 优化 原则 实际 上 是 一 种 更 普遍 意义 上 的 、 在 所 谓 的 延 拓 方法 中 使 
用 的 优化 原则 的 近似 。 使 用 这 种 原则 时 ， 一 系列 逐渐 变 难 的 优化 问题 被 依次 解 
决 。 这 给 出 了 优化 深度 结构 的 新 途径 : 要么 通过 正则 化 路 径 寻 找 解 决 方案 ， 要 人 么 
类 似 于 使 用 训练 学 生 或 动物 的 方式 ， 用 一 系列 经 过 选择 的 代表 越 来 越 复杂 概念 的 
样本 来 表征 系统 。 
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